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内 容 简 介 


大 数据 时 代 ， 数 据 成 为 决策 最 为 重要 的 参考 之 一 ， 数 据 分 析 行 业 近 入 了 一 个 全 新 的 阶段 。R 是 一 款 非常 
优秀 的 统计 分 析 软 件 ， 本 书 侧重 于 使 用 R 进行 数据 的 处 理 、 整 理 和 分 析 ， 重 点 讲述 了 R 的 数据 分 析 流 程 、 算 
法 包 的 使 用 以 及 相关 工具 的 应 用 , 同时 结合 大 量 精 选 的 数据 分 析 问 题 对 R 软件 进行 科学 、 准 确 和 全 面 的 介绍 ， 
以 便 使 读者 能 深刻 理解 R 的 精髓 和 灵活 、 高 效 的 使 用 技巧 。 

通过 本 书 , 读者 不 仅 能 掌握 使 用 R 及 相关 的 算法 包 来 快速 解决 实际 问题 ,而且 能 学 会 从 实际 问题 分 析 入 
手 ， 到 利用 R 进行 求解 ， 以 及 对 结果 进行 分 析 。 

本 书 可 作为 计算 机 、 互 联网 、 机 器 学 习 、 信 息 、 数 学 、 经 济 金融 、 管 理 、 运 筹 、 统 计 以 及 有 关 理 工科 专 
业 的 本 科 生 、 研 究 生 的 学 习 用 书 ， 也 能 帮助 市 场 营销 、 金 融 、 财 务 、 人 力 资源 管理 人 员 及 产品 经 理解 决 实际 
问题 ， 还 能 帮助 从 事 咨询 、 研 究 、 分 析 行业 的 人 士 及 各 级 管理 人 员 提 高 专业 水 平 。 
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大 数据 时 代 ， 数 据 成 为 决策 最 为 重要 的 参考 之 一 ， 数 据 分 析 随 着 大 数据 概念 的 普及 而 日 益 得 
到 重视 ， 数 据 分 析 行 业 迈 入 了 一 个 全 新 的 阶段 。 


数据 分 析 的 软件 如 雨后春笋 般 地 涌现 , 其 中 R 软件 的 发 展 备 受 瞩目 。R 是 一 个 免费 开源 软件 ， 
它 提供 了 首屈一指 的 统计 计算 和 绘图 功能 ， 尤 其 是 大 量 的 统计 分 析 、 数 据 挖掘 方面 的 算法 包 ， 使 
得 它 成 为 一 款 优秀 的 、 不 可 多 得 的 数据 分 析 工 具 软 件 。 


本 书 的 主要 目的 是 向 读者 介绍 如 何 用 R 进行 数据 分 析 ， 通 过 大 量 的 精 选 实例 ， 循 序 渐进 、 全 
面 系统 地 讲述 R 在 数据 分 析 领 域 的 应 用 。 


全 书 分 为 15 章 ， 主 要 内 容 从 数据 分 析 的 前 期 准备 、 基 本 分 析 及 应 用 和 综合 实例 这 三 篇 展开 。 
(1) 上 篇 数据 分 析 的 前 期 准备 


由 第 1~3 章 组 成 ， 首 先 简要 介绍 数据 分 析 的 原则 、 步 骤 和 过 程 ， 常 用 工具 及 R 在 数据 分 析 中 
的 优势 , 然后 介绍 R 中 数据 整理 等 数据 预 处 理 的 基本 函数 及 方法 。 这 些 内 容 是 使 用 R 进行 数据 分 
析 的 最 基础 内 容 。 


(2) 中 篇 ”基本 分 析 及 应 用 


由 第 4~13 章 组 成 ， 主 要 讲述 数据 分 析 的 基本 算法 及 应 用 ， 包 括 数 据 的 图 形 描述 、 描 述 性 分 
析 、 参 数 估 计 、 假 设 检验 ， 以 及 方差 分 析 、 回 归 分 析 、 主 成 分 分 析 、 典 型 相关 分 析 、 判 别 分 析 、 
聚 类 分 析 和 时 间 序 列 分 析 等 ， 这 些 分 析 方 法 也 是 数据 分 析 中 使 用 得 最 多 、 最 普遍 的 算法 。R 中 提 
供 了 丰富 的 、 功 能 强大 的 算法 包 和 实现 函数 ， 数 据 分 析 的 初级 和 中 级 用 户 务必 掌握 。 


(3) 下 篇 ”综合 实例 


由 第 14~15 章 组 成 ， 主 要 结合 两 个 大 例子 ， 综 合 讲述 数据 分 析 在 金融 数据 分 析 和 数据 预测 中 
的 应 用 ， 以 及 如 何 使 用 R 中 的 方法 和 工具 进行 应 用 。 对 于 中 高 级 的 用 户 ， 可 以 深入 学 习 一 下 。 


R 的 特点 是 入 门 非 常 容易 ， 使 用 也 非常 简单 ， 因 此 本 书 也 不 需要 读者 具备 R 和 数据 挖掘 的 基 
础 知识 ， 不 管 是 R 初学 者 ， 还 是 熟练 的 R 用 户 都 能 从 书 中 找到 对 自己 有 用 的 内 容 ， 从 而 快速 入 门 
和 提高 。 读 者 既 可 以 把 本 书 作为 学 习 如 何 应 用 R 的 一 本 优秀 教材 , 也 可 以 作为 数据 分 析 的 工具 书 。 


全 书 以 实际 问题 、 解 决 方 案 和 对 解决 方案 的 讨论 为 主线 来 组 织 内 容 ， 脉 络 清晰 ， 并 且 各 章 自 
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成 体系 。 读 者 可 以 从 头 至 尾 逐 章 学 习 ， 也 可 以 根据 自己 的 需要 进行 学 习 ， 找 到 自己 实际 问题 的 解 
决 方案 。 

本 书 所 编 的 源 程序 , 都 通过 了 反复 的 调试 , 读者 可 在 www.broadview.com.cn/23714 网 站 下 载 ， 
方便 读者 使 用 。 


本 书 主要 由 李 诗 羽 、 张 飞 、 王 正 林 编写 ， 其 他 参与 编写 的 人 员 有 肖 静 、 邹 术 来 、 夏 路 生 、 钟 
救 元 、 郑 曙 霞 、 王 成 、 刘 亚 文 、 肖 绍 英 、 王 伟 欣 、 朱 桂 莲 、 夏 立 德 、 王 龙 跃 等 。 在 此 对 所 有 参与 
编写 的 人 员 表 示 感 谢 ! 对 关心 、 支 持 我 们 的 读者 表示 感谢 ! 
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致敬 ，R! 


此 时 ， 你 一 定 想 知道 ， 书 的 封面 上 停 着 一 只 什么 鸟 ? 

那 我 告诉 你 ， 那 是 Robin 鸟 ， 中 文 名 叫 知 更 鸟 ， 它 可 大 有 来 涉 ， 是 英国 的 国 鸟 ， 以 羽毛 颜色 
漂亮 招 人 喜爱 著称。 

我 把 它 放 在 封面 ， 首 先是 借用 其 名 字 首 字母 R， 来 表示 R 语言 。 最 重要 的 是 ， 我 想到 了 股神 
巴菲特 的 一 句 关于 知 更 鸟 的 名 言 ， 我 想 双 关 瞳 示 一 下 一 一 如 果 你 还 不 学 一 些 R， 大 数据 对 你 来 说 
就 快 结束 了 。 

如 果 你 想 等 到 知 更 鸟 报 春 ， 那 春天 就 快 结束 了 。 一 一 巴菲特 
Warren Edward Buffett 

如 果 你 想 快 速成 功 
你 最 好 站 在 一 个 高 的 肩膀 上 
如 果 你 想 驾 驭 大 数据 时 代 

你 最 好 懂 点 数据 挖掘 

如 果 你 想 玩 转 数据 挖掘 

你 最 好 先 玩 转 RIl 





So if you wait for the robins, spring will be over 


致敬 ， 肩 膀 ! 


可 能 当 我 们 还 是 三 好 小 学 生 的 时 候 ， 我 们 就 知道 ， 牛 顿 是 站 在 巨人 的 肩膀 上 的 ， 现 如 今 ， 我 
们 都 知道 ， 中 国 所 有 的 “二 代 ” 不 是 站 在 老 侈 的 肩膀 上 ， 就 是 踩 在 老 丈 人 的 肩膀 上 的 。 不 得 不 
承认 ， 脚 下 的 肩膀 有 时 候 是 很 咎 的 。 

当 你 走 进 数据 挖掘 ， 当 你 走 进 R 的 世界 ， 你 会 发 现 ，R 的 脚下 也 有 一 个 肩膀 ， 有 肩膀 的 及 也 
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是 很 牛 的 ! 

R 的 肩膀 , 是 谷歌 首席 经 济 学 家 范 里 安 先 生发 现 的 , 先生 说 了 好 几 句 活 , 我 只 记 住 了 这 名 “使 
用 R， 你 已 经 站 在 了 巨人 的 肩膀 上 ”。 

在 此 ， 我 只 想 致敬 一 下 肩膀 ， 与 “二 代 ” 无 关 ! 

我 之 所 以 能 取得 现在 的 成 就 ， 是 因为 我 站 在 巨人 的 肩膀 上 。 一 一 牛顿 


TI have seen further it is by standing on the shoulders of giants. 一 一 Kaac Newton 





艾 萨 克 : 牛 顿 栈 士 (Tsaac Newton，1643.12.25 一 1727.3.20)， 
英国 数学 家 、 物 理学 家 、 天 文学 家 和 经 典 力学 体系 葛 基 人 。 
R 的 最 美 之 处 在 于 ， 你 能 够 通过 修改 很 多 牛人 预先 编写 好 的 包 的 代码 ， 解 决 你 想 解 决 的 各 种 
问题 ， 因 此 ， 事 实 上 ， 使 用 及 ， 你 已 经 站 在 了 巨人 的 肩膀 上 。 一 一 哈 尔 ， 罗 纳 德 . 范 里 安 


The great beauty of R is that you can modify it to do all sorts of things. And you have a lot of 
prepackaged stuff that's already available, so you're standing on the shoulders of giants. 


——Hal Ronald Varian 





哈 尔 。 罗 纳 德 。 范 里 安 〈Hal Ronald Varian )， 
谷歌 首席 经 济 学 家 ， 美 国 著名 研究 微观 经 济 学 和 信息 经 济 学 学 者 。 
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致敬 ， 时 代 ! 

“大 数据 ”一 词 ， 最 早 是 全 球 知名 咨询 公司 麦肯锡 提出 来 的 ，“ 数 据 ， 已 经 渗透 到 当今 每 一 
个 行业 和 业务 职能 领域 ， 成 为 重要 的 生产 因素 。 人 们 对 于 海量 数据 的 挖掘 和 运用 ， 预 示 着 新 一 波 
生产 率 增长 和 消费 者 符 余 浪 潮 的 到 来 。?” 

我 们 ， 已 经 身 处 大 数据 时 代 了 ， 对 于 做 数据 挖掘 、 用 R 的 我 们 来 说 ， 好 时 代 来 了 ! 


“大 数据 ”时 代 已 经 降临 ， 在 商业 、 经 济 及 其 他 领域 中 ， 决 策 将 日 益 基于 数据 和 分 析 而 做 出 ， 
而 并 非 基于 经 验 和 直觉 。 


一 一 摘自 《纽约 时 报 》，2012 年 2 月 的 一 篇 专栏 





摘自 《纽约 时 报 》，How Big Data Became So Big 一 文 


“在 美国 具备 高 度 分 析 技 能 的 人 才 (大 学 及 研究 生 院 中 学 习 统 计 和 机 器 学 习 专 业 的 学 生 ) 供 
给 量 ，2008 年 为 15 万 人 ， 预 计 到 2018 年 将 翻 一 番 ， 达 到 30 万 人 。 然 而 ， 预 计 届时 对 这 类 人 才 
的 需求 将 超过 供给 ， 达 到 44 万 一 49 万 人 的 规模 ， 这 意味 着 将 产生 14 万 一 19 万 的 人 才 缺 口 。 仅 
仅 四 五 年 前 ， 对 数据 科学 家 的 需求 还 仅 限 于 Google、Amazon 等 互联 网 企业 中 。 然 而 在 最 近 ， 
重视 数据 分 析 的 企业 ， 无 论 是 哪个 行业 ， 都 在 积极 招募 数据 科学 家 ， 这 也 令 人 手 不 足 的 状况 雪 
二 加 霜 。 所 

一 一 摘自 麦肯锡 全 球 研究 院 的 报告 Big data: The next frontier for innovation, competition and 
productivity 〈 大 数据 : 未 来 创新 、 竞 争 、 生 产 力 的 指向 标 ) ，2011.5 

we 2017 年 大 数据 技术 和 服务 市 场 将 增 至 324 亿美 元 , 实现 27% 的 年 复合 增长 率 。…… 大 数 
据 不 仅 是 新 兴 行 业 ， 也 是 市 场 的 主要 驱动 力 ， 它 正在 酿 成 一 个 主要 的 市 场 。 

一 一 摘自 国际 数据 公司 IDC 的 预测 报告 Worldwide Big Data Technology and Services 
2013-2017 Forecast，2013.12 


致 若 ， 人 才 ! 
Google 首席 经 济 学 家 范 里 安 先 生 ， 在 2008 年 10 月 与 麦肯锡 总 监 James Manyika 先生 的 对 话 
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中 ， 曾 经 讲 过 下 面 一 段 话 : “我 总 是 说 ， 在 未 来 10 年 里 ， 从 事 最 有 意思 的 工作 的 人 将 是 统计 学 
家 。 人 们 都 认为 我 在 开玩笑 。 但 是 ， 过 去 谁 能 想到 电脑 工程 师 会 成 为 20 世纪 90 年 代 从 事 最 有 趣 
的 工作 的 人 ? 在 未 来 10 年 里 , 获取 数据 以 便 能 理解 它 、 处 理 它 、 从 中 提取 价值 、 使 其 形象 化 、 
传送 它 一 一 的 能 力 将 成 为 一 种 极其 重要 的 技能 ， 不 仅 在 专业 层面 上 是 这 样 ， 而 且 在 教育 层面 ( 包 
括 对 中 小 学 生 、 高 中 生 和 大 学 生 的 教育 ) 也 是 如 此 。 由 于 如 今 我 们 已 真正 拥有 实质 上 免费 的 和 无 
所 不 在 的 数据 ， 因 此 ， 与 此 互补 的 稀缺 要 素 是 理解 这 些 数 据 并 从 中 提取 价值 的 能 力 。” 

范 里 安 教授 在 当初 的 对 话 中 使 用 的 是 statisticians (统计 学 家 ) 一 词 ， 虽 然 当 时 他 没有 使 用 数 
据 科 学 家 这 个 词 ， 但 这 里 所 指 的 ， 正 是 现在 我 们 普遍 所 指 的 数据 科学 家 。 

对 数据 科学 家 的 关注 ， 源 于 大 家 逐步 认识 到 ，Google、Amazon、Facebook 等 公司 成 功 的 背 
后 ， 存 在 着 这 样 一 批 专 业 人 才 。 这 些 互 联网 公司 对 于 大 量 数据 不 是 仅 进 行 存储 而 已 ， 而 是 将 其 变 
为 有 价值 的 金 矿 一 一 例如 ， 搜 索 结 果 、 定 向 广告 、 准 确 的 商品 推荐 、 可 能 认识 的 好 友 列 表 等 。 

仅仅 在 几 年 前 ， 数 据 科 学 家 还 不 是 一 个 正式 确定 的 职业 ， 然 而 一 肯 眼 的 工夫 ， 这 个 职业 就 已 
经 被 誉 为 “今后 10 年 IT 行业 最 重要 的 人 才 ” 了 。 





Make way! 
fm a data scientist/ | 





摘自 The Emerging Role of the Analyst 一 文 


在 国外 ， 据 统计 ， 目 前 世界 500 强 企业 中 ， 有 90% 以 上 都 建立 了 数据 分 析 部 门 。 IBM、 微 软 、 
Intel 等 公司 也 积极 投资 数据 业务 ， 建 立 大 数据 部 门 ， 培 养 数 据 分 析 团 队 。 


美国 的 小 伙伴 们 ， 在 数据 挖掘 、 数 据 科 学 等 方面 比 我 们 下 手 早 。2011 年 ， 美国 的 加 州 大 学 伯 
克利 分 校 开 始 开设 《数据 科学 导论 》 课 程 ; 伊利 诺 伊 大 学 香槟 分 校 从 2011 年 起 举办 “数据 科学 
暑期 研究 班 ”; 哥伦比亚 大 学 从 2013 年 起 开设 《应 用 数据 科学 》 课 程 ， 并 从 2013 年 起 开设 相关 
培训 项 目 ， 还 计划 从 2014 年 起 设立 硕士 学 位 ，2015 年 设立 博士 学 位 ; 纽约 大 学 从 2013 年 秋季 起 
设立 “数据 科学 ”硕士 学 位 ; 在 英国 ， 邓 迪 大 学 从 2013 年 起 设立 “数据 科学 ”硕士 学 位 …… 

怎么 办 ， 那 就 自学 吧 ， 从 R 开始 ， 站 上 那个 肩膀 ， 做 今后 10 年 最 重要 的 人 才 吧 ! 
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1976 年 ，John Chambers 在 贝尔 实验 室 开发 的 S 语言 是 为 了 替代 昂贵 的 SPSS 和 SAS 工具 。 
如 果 说 S 是 VAX 和 UNIX 小 型 机 时 代 的 产物 , 那么 R 则 是 PC 和 Linux 时 代 的 产物 , R 语言 大 量 
借用 了 S 语言 的 方法 。 

1992 年 ， 新 西 兰 奥克兰 大 学 的 两 位 统计 学 教授 ， 两 位 “R 姓 ” 先 生 (R Sir，“R 瑟 ”) Ross 
Ihaka 和 Robert Gentleman 成 为 了 同事 ， 为 了 方便 教授 初等 统计 课程 ， 这 哥 儿 俩 开发 了 一 种 语言 ， 
而 恰巧 他 们 名 字 的 首 字 母 都 是 R， 于 是 R 便 成 为 这 门 语言 的 名 称 。 

这 两 位 R 教授 也 是 R 开发 团队 的 核心 成 员 ， 值 得 注意 的 是 ，S 语言 的 发 明 者 John Cambers 
也 是 R 开发 团队 的 成 员 ， 因 此 不 难 理解 R 语言 的 一 些 数据 处 理 路 径 与 S$ 语言 相同 。 

R 可 以 看 作 S 的 一 种 实现 , Insightful 公司 开发 的 S-PLUS 也 是 S 的 实现 版 本 ,2004 年 Insightful 
把 S-PLUS 授权 给 了 朗讯 科技 ， 后 来 又 被 Tibco 软件 于 2008 年 收购 。 





R 语言 的 发 明 者 Ross Ihaka 和 Robert Gentleman 


与 S$ 和 S-PLUS 不 同 的 是 ，R 并 不 是 象牙 塔 里 炮 制 出 的 代码 ， 而 是 一 个 由 分 析 师 和 程序 员 构 
成 的 社区 的 产物 ， 这 个 社区 为 处 理 各 种 数据 集 创 建 了 超过 5000 个 函数 包 和 2500 个 插件 。 

今天 , 根据 Revolution Analytics 的 统计 ，R 被 全 球 超过 200 万 个 量化 分 析 师 采用 。Revolution 
Analytics 成 立 于 2007 年 ， 并 开发 出 了 R 的 并 行 实现 ， 该 公司 采用 了 开放 内 核 的 方式 开发 R， 为 
开源 软件 包 推广 商业 支持 ， 同 时 扩展 R 环境 ， 提 升 其 在 计算 机 集群 上 的 表现 ， 并 将 其 与 Hadoop 
集群 对 接 。 

在 2013 年 中 ， 数 据 挖 抉 专业 网 站 KDnuggets 做 了 一 个 关于 “什么 样 的 程序 或 者 统计 语言 是 
你 在 做 分 析 、 挖 据 、 科 学 计算 的 时 候 所 需要 的 ? ”的 调查 。 

调查 结果 是 : 最 受 欢迎 的 是 R 语言 (61% 的 调研 会 员 在 用 ) ,然后 是 Python(39%)、SQL(37%) 
等 ， 每 个 调研 对 象 平均 使 用 2 一 3 种 语言 。 
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数据 分 析 导 引 


数据 分 析 这 一 学 科 已 成 为 统计 学 、 机 器 学 习 等 诸多 领域 的 研究 热点 ， 数 据 分 析 技 术 也 已 成 为 
大 数据 时 代 热 门 的 技术 。 

数据 分 析 近 年 来 发 展 异常 迅猛 ， 由 此 不 仅 产 生 了 大 量 不 同类 型 、 功 能 强大 的 统计 分 析 算 法 ， 
而 且 也 推动 了 众多 数据 分 析 工 具 软 件 的 发 展 ， 在 这 些 软件 当中 ，R 已 悄然 成 为 了 数据 分 析 领 域 最 
重要 的 软件 之 一 。 


R 是 一 个 包含 众多 科学 、 工 程 统计 的 庞大 系统 ， 是 目前 世界 上 最 流行 的 统计 软件 之 一 。R 既 
是 用 于 统计 计算 和 统计 制图 的 优秀 工具 ， 又 是 大 数据 分 析 和 挖掘 重要 的 工具 。 


1.1 数据 分 析 概 述 


数据 分 析 是 指 用 适当 的 统计 方法 对 收集 来 的 大 量 第 一 手 资料 和 第 二 手 资料 进行 分 析 ， 以 求 最 
大 化 地 开发 数据 资料 的 功能 ， 发 挥 数据 的 作用 。 数 据 分 析 是 为 了 提取 有 用 信息 和 形成 结论 而 对 数 
据 加 以 详细 研究 和 概括 总 结 的 过 程 。 
1.1.1 数据 分 析 的 原则 

数据 分 析 必 须 遵循 的 原则 主要 有 三 条 : 

(1) 数据 分 析 是 为 了 验证 假设 的 问题 ， 需 要 提供 必要 的 数据 验证 。 在 数据 分 析 中 ， 分 析 模 型 
构建 完成 后 ， 需 要 利用 测试 数据 验证 模型 的 正确 性 。 

(2) 数据 分 析 是 为 了 挖掘 更 多 的 问题 ， 并 找到 深层 次 的 原因 。 比 如 你 分 析 产 品 销售 情况 的 数 


据 ， 你 要 找到 为 什么 销售 数据 会 变动 ， 由 浅 入 深 地 分 析 其 原因 ， 比 如 说 是 促销 、 节 日 、 天 气 、 卖 
场 宣传 、 卖 场 环境 、 消 费心 理 、 消 费 人 群 、 价 格 、 竞 争 对 手 等 原因 。 然 后 ， 继 续 总 结 ， 深 入 分 析 ， 
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针对 可 能 的 原因 进行 实际 运用 及 跟踪 结果 ， 之 后 再 分 析 。 

(3) 不 能 为 了 做 数据 分 析 而 做 数据 分 析 。 如 果 没 有 明确 的 问题 或 者 目标 ， 你 拿 着 手中 的 数据 ， 
就 一 头 扎 进去 进行 数据 分 析 ， 这 是 不 会 有 结果 的 。 进 行 一 次 数据 分 析 的 原因 ， 一 定 是 你 发 现 了 数 
据 反 映 了 一 些 问题 ,或 者 是 你 希望 通过 分 析 ， 达 到 改善 某 方面 的 问题 ， 比 如 说 产品 的 销量 、 顾 客 
的 流量 等 。 

因此 ， 进 行 数据 分 析 之 前 ， 要 尽量 明确 数据 分 析 针 对 的 问题 ， 然 后 带 着 问题 进行 数据 分 析 。 
因为 面 对 不 同 的 问题 ， 分 析 思 路 、 分 析 方 法 甚至 结果 都 可 能 大 相 径 庭 。 

你 可 以 先 围绕 数据 ， 大 概 地 问 一 堆 问 题 ， 然 后 从 中 确定 你 要 分 析 的 问题 ， 比 如 你 希望 通过 数 
据 分 析 来 改善 什么 ? 目前 通过 网 络 营 销 带 来 的 销售 量 有 什么 问题 ? 流量 最 多 能 提升 多 少 ? 网 站 
主要 针对 的 人 群 是 什么 ? 现在 的 转化 率 是 否 正常 ? 等 等 。 这 些 看 似 很 不 重要 的 问题 ， 其 实 你 可 以 
从 客户 的 回答 中 得 到 很 多 答案 ， 从 而 来 确定 你 要 分 析 的 问题 。 


1.1.2 ”数据 分 析 的 步骤 
数据 分 析 有 极 广泛 的 应 用 范围 。 典 型 的 数据 分 析 包 含 以 下 三 个 基本 步骤 。 


(1) 探索 性 数据 分 析 

当 你 从 多 种 渠道 获得 了 大 量 的 可 能 杂乱 无 章 、 看 不 出 规律 的 数据 的 时 候 ， 首 先 需要 在 没有 多 
少 经 验 的 情况 下 第 一 次 对 其 进行 仔细 的 分 析 。 探 索性 数据 分 析 (EDA: Exploratory Data Analysis) 
能 够 在 这 种 情况 下 帮助 你 找到 所 有 这 些 数据 中 隐 含 的 信息 。 


不 仅 如 此 ， 探 索性 数据 分 析 还 能 够 引导 你 建立 有 用 的 模型 ， 比 如 通过 作 图 、 造 表 、 用 各 种 形 
式 的 方程 拟 合 、 计 算 某 些 特征 量 等 手段 探索 规律 性 的 可 能 形式 ， 即 往 什么 方向 和 用 何 种 方式 去 寻 
找 和 揭示 隐 含 在 数据 中 的 规律 性 。 

即使 在 你 对 类 似 的 数据 已 经 司空 见 惯 ， 或 者 认为 建 模 工作 只 是 例行公事 的 情况 下 ， 事 先 运 用 
探索 性 数据 分 析 方 法 检验 模型 的 可 靠 性 、 验 证 相关 的 假设 也 是 一 项 非常 有 用 和 重要 的 工作 ， 它 往 
往 能 使 你 获得 意 想 不 到 的 发 现 。 

本 质 而 言 ， 探 索性 数据 分 析 是 启发 式 、 开 放 式 和 完全 动态 的 。 使 用 这 种 方法 的 时 候 常常 也 需要 
对 数据 进行 清洗 和 整合 ， 这 些 工 作 非 常 有 助 于 你 运用 多 种 可 视 化 的 方法 真正 实现 “让 数据 说 话 ”。 

(2) 模型 选 定 分 析 

在 探索 性 分 析 的 基础 上 ， 通 过 定量 分 析 方 法 ， 提 出 一 类 或 几 类 可 能 的 模型 ， 然 后 通过 进一步 
的 分 析 ， 从 中 挑选 一 类 适合 的 模型 。 

(3) 推断 分 析 

通常 使 用 数理 统计 方法 ， 进 行 一 系列 的 计算 和 分 析 ， 对 所 确定 的 模型 或 估计 的 可 靠 程度 和 精 


10 ”数据 分 析 : R 语言 实战 
确 程 度 做 出 推断 。 
1.1.3 ”数据 分 析 的 过 程 
数据 分 析 的 过 程 通常 包括 明确 目标 、 收 集 数据 、 加 工整 理 、 选 择 方法 和 解释 结果 。 


(1) 明确 目标 


明确 目标 是 数据 分 析 的 出 发 点 。 明 确 数据 分 析 的 目标 就 是 要 明确 本 次 数据 分 析 要 研究 的 主要 
问题 和 预期 的 分 析 目 标 等 。 例 如 ， 分 析 储 户 的 储蓄 行为 是 否 存在 显著 差异 以 及 原因 : 分 析 某 电子 
商务 网 站 的 客户 群 特征 ， 包 括 其 人 口 特征 和 消费 行为 等 方面 。 只 有 明确 了 数据 分 析 的 目标 ， 才 能 
正确 地 制定 数据 收集 方案 , 即 收集 哪些 数据 , 采用 怎样 的 方式 收集 等 ,进而 为 数据 分 析 做 好 准备 。 


(2) 收集 数据 


收集 数据 当然 是 要 正确 地 收集 数据 ， 正 确 的 数据 对 于 实现 数据 分 析 目 标 将 起 到 关键 性 的 作 
用 。 正 确 收集 数据 是 指 从 分 析 目 标 出 发 ， 排 除 干扰 因 素 ， 正 确 收集 服务 于 既定 分 析 目 标的 数据 。 


排除 数据 中 那些 与 目标 不 关联 的 干扰 因素 是 数据 收集 中 的 重要 环节 。 数 据 分 析 并 不 仅仅 是 对 
数据 进行 数学 建 模 , 收集 的 数据 是 否 真 正 符合 数据 分 析 的 目标 , 其 中 是 否 包 含 了 其 他 因素 的 影响 ， 
影响 程度 怎样 ， 应 如 何 剔 除 这 些 影 响 等 问题 都 是 数据 分 析 过 程 中 必须 注意 的 重要 问题 。 


(3) 加 工整 理 


在 明确 数据 分 析 目 标 基 础 上 收集 到 的 数据 ， 往 往 还 需要 对 其 进行 必要 的 加 工整 理 ， 而 后 才能 
真正 用 于 分 析 建 模 。 


数据 的 加 工整 理 通常 包括 数据 缺失 值 处 理 、 数 据 的 分 组 、 基 本 描述 统计 量 的 计算 、 基 本 统计 
图 形 的 绘制 、 数 据 取 值 的 转换 、 数 据 的 正 态 化 处 理 等 ， 它 能 够 帮助 人 们 掌握 数据 的 分 布 特征 ， 这 
是 进一步 深入 分 析 和 建 模 的 基础 。 

(4) 选择 方法 

数据 加 工整 理 完成 后 一 般 就 可 以 进行 进一步 的 数据 分 析 了 。 分 析 时 应 切忌 滥用 和 误 用 统计 分 
析 方 法 。 滥 用 和 误 用 统计 分 析 方 法 主要 是 由 于 对 方法 能 解决 哪 类 问题 、 方 法 适用 的 前 提 、 方 法 对 
数据 的 要 求 不 清 等 原因 造成 的 。 另 外 ， 统 计 分 析 软 件 的 不 断 普及 和 应 用 中 的 不 求 甚 解 也 会 加 重 这 


种 现象 。 因 此 ， 在 数据 分 析 中 应 避免 言 目 的 “ 拿 来 主义 ”， 和 否则 ， 得 到 的 分 析 结 论 可 能 会 偏差 较 
大 甚至 发 生 错 误 。 


另外 ， 选 择 几 种 统计 分 析 方 法 对 数据 进行 探索 性 的 反复 分 析 也 是 极为 重要 的 。 每 一 种 统计 分 
析 方 法 都 有 自己 的 特点 和 局 限 性 ， 因 此 ， 一 般 需 要 选择 几 种 方法 反复 印证 分 析 ， 仅 依据 一 种 分 析 
方法 的 结果 就 断然 下 结论 是 不 科学 的 。 
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(5) 解释 结果 

数据 分 析 的 直接 结果 是 统计 量 和 统计 参数 。 正 确 理 解 它们 的 统计 含义 是 得 出 一 切 分 析 结 论 的 
基础 ， 它 不 仅 能 帮助 人 们 有 效 避 免 毫 无 根据 地 随意 引用 统计 数字 的 错误 ， 同 时 也 是 证 实 分 析 结 论 
正确 性 和 可 信 性 的 依据 ， 而 这 一 切 都 取决 于 人 们 能 否 正确 地 把 握 统计 分 析 方 法 的 核心 思想 。 

另外 ， 将 统计 量 和 统计 参数 与 实际 问题 相 结 合 也 是 非常 重要 的 。 数 据 分 析 方 法 是 否 能 够 正确 
地 解决 各 学 科 的 具体 问题 ， 不 仅 取 决 于 应 用 分 析 方 法 或 工具 的 人 能 否 正 确 地 选择 分 析 方 法 ， 还 取 
决 于 他 们 是 否 具有 深厚 的 应 用 背景 。 只 有 将 各 学 科 的 专业 知识 与 统计 量 和 统计 参数 相 结 合 ， 才 能 
得 出 令 人 满意 的 分 析 结 论 。 


1.1.4 ”数据 分 析 的 对 象 
常见 的 数据 分 析 的 对 象 有 以 下 7 大 类 : 


关系 型 数据 库 、 事 务 型 数据 库 、 面 向 对 象 的 数据 库 

数据 仓库 / 多 维 数据 库 

空间 数据 《如 地 图 信息 ) 

工程 数据 (如 建筑 、 集 成 电路 的 信息 ) 

文本 和 多 媒体 数据 (如 文本 、 图 像 、 音 频 、 视 频数 据 ) 

时 间 相 关 的 数据 (如 历史 数据 或 股票 交易 数据 ) 

万 维 网 (如 半 结 构 化 的 HTML、 结 构 化 的 XML 以 及 其 他 网 络 信息 ) 


1.2 大 数据 分 析 


1.2.1 大 数据 分 析 的 流程 


相 比 于 传统 的 数据 处 理 ， 大 数据 时 代 的 数据 处 理 的 理念 有 三 大 显著 的 转变 : 首先， 数据 是 全 
体 的 而 不 是 抽样 的 ， 其 次 ， 分 析 要 的 是 效率 而 不 是 绝对 精确 ; 第 三 ， 分 析 的 结果 要 的 是 相关 性 而 
不 是 因果 性 。 


常见 的 大 数据 处 理 流程 ， 可 以 概括 为 四 步 : 数据 采集 、 预 处 理 、 统 计 和 分 析 以 及 数据 挖掘 。 


(1) 数据 采集 

大 数据 的 采集 主要 是 指 利用 多 个 数据 库 来 接收 发 自 客户 端的 数据 ， 并 且 用 户 可 以 通过 这 些 数 
据 库 来 进行 简单 的 查询 和 处 理工 作 。 

《2) 预 处 理 


虽然 采集 端 本 身 会 有 很 多 数据 库 ， 但 是 如 果 要 对 这 些 海量 数据 进行 有 效 的 分 析 ， 还 是 应 该 将 
这 些 来 自前 端的 数据 导入 到 一 个 集中 的 大 型 分 布 式 数据 库 ， 或 者 分 布 式 存储 集群 中 ， 并 且 可 以 在 
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导入 的 基础 上 做 一 些 简 单 的 清洗 和 预 处 理工 作 。 


(3) 统计 和 分 析 

统计 和 分 析 主 要 利用 分 布 式 数据 库 或 者 分 布 式 计算 集群 来 对 存储 于 其 内 的 海量 数据 进行 普 
通 的 分 析 和 分 类 汇总 等 ， 以 满足 大 多 数 常 见 的 分 析 需 求 。 

统计 和 分 析 这 个 环节 的 主要 特点 和 挑战 是 分 析 涉 及 的 数据 量 大 ， 其 对 系统 资源 ， 特 别 是 VO 
会 有 极 大 的 占用 。 

(4) 数据 挖掘 

与 前 面 统计 和 分 析 过 程 不 同 的 是 ， 数 据 挖掘 一 般 没 有 什么 预先 设 定 好 的 主题 ， 主 要 是 在 现 有 
数据 上 面 进行 基于 各 种 算法 的 计算 ， 起 到 预测 的 效果 ， 从 而 实现 一 些 高 级 别 数据 分 析 的 需求 。 数 
据 挖掘 的 特点 和 挑战 主要 是 由 于 挖掘 的 算法 很 复杂 ， 并 且 计 算 涉 及 的 数据 量 和 计算 量 都 很 大 。 


1.2.2 大 数据 分 析 的 基本 方面 


越 来 越 多 的 应 用 涉及 大 数据 ， 这 些 大 数据 的 属性 ， 包 括 数量 、 速 度 和 多 样 性 等 都 呈现 了 大 数 
据 不 断 增长 的 复杂 性 ， 因 此 ， 大 数据 的 分 析 方法 在 大 数据 领域 就 显得 尤为 重要 ， 可 以 说 是 决定 最 
终 信息 是 否 有 价值 的 决定 性 因素 。 大 数据 分 析 的 基本 方面 可 概括 如 下 。 

(1) 预测 性 分 析 能 力 

预测 性 分 析 可 以 让 分 析 员 根据 可 视 化 分 析 和 数据 挖掘 的 结果 做 出 一 些 预测 性 的 判断 ， 在 此 基 
础 上 ， 进 一 步 的 数据 分 析 、 数 据 挖掘 可 以 让 分 析 员 更 好 地 理解 数据 。 

(2) 数据 质量 和 数据 管理 

数据 质量 和 数据 管理 是 一 些 管理 方面 的 最 佳 实 践 。 通 过 标准 化 的 流程 和 工具 对 数据 进行 处 
理 ， 可 以 保证 一 个 预先 定义 好 的 高 质量 的 分 析 结 果 。 

(3) 可 视 化 分 析 

不 管 是 对 数据 分 析 专家 还 是 普通 用 户 ， 数 据 可 视 化 是 数据 分 析 工 具 最 基本 的 要 求 。 可 视 化 可 
以 直观 地 展示 数据 ， 让 数据 自己 说 话 ， 让 观众 看 到 结果 。 

(4) 语义 引擎 

大 数据 中 非 结构 化 的 数据 日 益 增 多 ， 非 结构 化 数据 的 多 样 性 带 来 了 数据 分 析 新 的 挑战 ， 需 要 
一 系列 的 工具 去 解析 、 提 取 及 分 析 数 据 .。 语义 引擎 需要 被 设计 成 能 够 从 “文档 ”中 智能 提取 信息 。 

(5) 数据 分 析 挖掘 算法 


可 视 化 是 给 人 看 的 ， 数 据 分 析 挖掘 就 是 给 机 器 看 的 。 集 群 分 析 、 分 割 分 析 、 孤 立 点 分 析 还 有 
其 他 的 算法 让 我 们 可 以 深入 数据 内 部 ， 挖 掘 价值 。 这 些 算法 不 仅 要 处 理 大 数据 的 量 ， 而 且 也 要 有 
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处 理 大 数据 的 速度 。 


1.2.3 ”大 数据 分 析 的 应 用 
当前 ， 大 数据 分 析 应 用 的 主要 领域 有 以 下 这 些 。 


(1) 理解 和 定位 客户 

这 是 目前 最 大 、 最 广为人知 的 大 数据 应 用 领域 之 一 。 这 里 的 重点 是 使 用 大 数据 来 更 好 地 了 解 
客户 以 及 他 们 的 行为 和 喜好 。 企 业 都 热衷 于 收集 社交 媒体 数据 、 浏 览 器 日 志 、 文 本 分 析 和 传感器 
数据 ， 来 更 全 面 地 了 解 他 们 的 客户 。 在 大 多 数 情况 下 ， 总 的 目标 是 创建 预测 模型 。 


例如 美国 零售 商 Target 利用 大 数据 分 析 , 可 以 非常 准确 地 预测 他 们 的 客户 什么 时 候 想 要 小 孩 。 
另外 ， 通 过 使 用 大 数据 ， 电 信 公 司 可 以 更 好 地 预测 客户 流失 ， 沃 尔 玛 可 以 更 好 地 预测 哪些 产品 将 
会 热卖 ， 汽 车 保险 公司 能 够 了 解 其 客户 的 驾驶 水 平 。 


(2) 理解 和 优化 业务 流程 

大 数据 也 越 来 越 多 地 用 于 优化 业务 流程 ， 比 如 通过 利用 从 社交 媒体 数据 、 网 络 搜索 趋势 以 及 
天 和 气 预 报 挖掘 出 的 预测 信息 ， 零 售 商 能 够 优化 其 库存 。 其 中 广泛 应 用 大 数据 分 析 的 业务 流程 是 供 
应 链 或 配送 路 线 优化 。 在 这 方面 ， 地 理 定 位 或 无 线 电 频率 识别 传感器 被 用 来 追踪 货物 或 送 货车 ， 
并 通过 整合 实时 交通 数据 来 优化 路 线 。 


(3) 金融 交易 
大 数据 在 金融 行业 的 应 用 主要 是 金融 交易 。 高 频 交 易 (HFT) 是 大 数据 应 用 比较 多 的 领域 。 其 


中 ， 大 数据 算法 被 用 来 做 出 交易 决定 。 现 在 ， 大 多 数 股 权 交 易 都 是 通过 大 数据 算法 进行 的 ， 这 些 算 
法 越 来 越 多 地 开始 考虑 社交 媒体 网 络 和 新 闻 网 站 的 信息 ， 以 便 在 几 秒 内 做 出 买 入 和 卖 出 的 决定 。 


1.3 数据 分 析 常 用 工具 


数据 分 析 工 作 在 绝 大 多 数 情况 下 的 目的 在 于 用 统计 学 的 手段 揭示 数据 反映 的 一 些 有 用 的 信 
息 ， 比 如 事物 的 发 展 趋势 和 规律 ， 又 或 者 是 定位 某 种 或 某 些 现象 的 原因 ;也 可 以 是 检验 某 种 假设 
是 否 正确 (心智 模型 的 验证 )。 


用 于 数据 分 析 的 工具 很 多 ， 常 用 的 工具 有 Excel、SPSS、Matlab 和 R 等 。 


(1) Excel 


Excel 软件 大 多 数 人 应 该 都 是 比较 熟悉 的 ， 它 满足 了 绝 大 多 数 办 公制 表 的 需求 ， 同 时 也 拥有 
相当 优秀 的 数据 处 理 能 力 。 其 自 带 的 ToolPak (分析 工具 库 ) 和 Solver( 规 划 求 解 加载 项 ) 可 以 完 
成 基本 描述 统计 、 方 差分 析 、 统 计 检 验 、 健 里 叶 分 析 、 线 性 回归 分 析 和 线性 规划 求解 工作 。 这 些 
功能 在 Excel 中 没有 默认 打开 ， 需 要 在 Excel 选项 中 手动 开启 。 
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除 此 以 外 ，Excel 也 提供 较为 常用 的 统计 图 形 绘制 功能 。 这 些 功能 涵盖 了 基本 的 统计 分 析 手 
段 ， 其 已 经 能 够 满足 绝 大 部 分 数据 分 析 工 作 的 需求 ， 同 时 也 提供 了 相当 友好 的 操作 界面 ， 对 于 具 
备 基 本 统计 学 理论 的 用 户 来 说 是 十 分 容易 上 手 的 。 


(2) SPSS 


SPSS 原名 是 Statistical Package for the Social Sciences (社会 科学 统计 软件 包 ), 现在 已 被 IBM 
收购 ， 改 名 后 仍然 叫 SPSS， 不 过 全 称 变更 为 Statistical Product and Service Solutions (统计 产品 与 
服务 解决 方案 )。 


SPSS 是 一 个 专业 的 统计 分 析 软 件 ， 除 了 基本 的 统计 分 析 功 能 之 外 ， 还 提供 非 线 性 回归 、 聚 
类 分 析 (Clustering)、 主 成 分 分 析 (PCA) 和 基本 的 时 序 分 析 。SPSS 在 某 种 程度 上 可 以 进行 简单 
的 数据 挖掘 工作 , 比如 K-Means 聚 类 , 不 过 数据 挖掘 的 主要 工作 一 般 都 是 使 用 其 自家 的 Clementine 
( 现 已 改名 为 SPSS Modeler) 完成 ， 而 且 SPSS Modeler 的 建 模 功能 非常 强大 且 智能 化 ， 同 时 我 们 
还 可 以 通过 其 自身 的 CLEF (Clementine Extension Framework) 框架 和 Java 开发 新 的 建 模 插件 ， 
其 扩展 性 相当 好 ， 是 一 个 不 错 的 商业 BI 方案 。 


(3) Matlab 


Matlab 也 是 一 个 商业 软件 ， 从 名 称 上 就 可 以 看 出 它 是 为 数学 服务 的 。Matlab 的 计算 主要 基于 
矩阵。 其 功能 非常 强大 ， 涵 盖 了 生物 统计 、 信 和 号 处 理 、 金 融 数据 分 析 等 一 系列 领域 ， 是 一 个 功能 
很 强大 的 数学 计算 工具 。 

(4) R 

R 是 一 个 开源 的 分 析 软 件 ,也 是 一 个 分 析 能 力 不 亚 于 SPSS 和 Matlab 等 商业 软件 的 轻 量 级 ( 仅 
指 其 占用 空间 极 小 ， 功 能 却 是 重量 级 的 ) 分 析 工 具 。R 支持 Windows、Linux 和 Mac OS 系统 ， 对 
于 用 户 来 说 使 用 起 来 非常 方便 。 

R 和 Matlab 都 是 通过 命令 行 来 进行 操作 的 , 这 一 点 很 适合 有 编程 背景 或 喜好 的 数据 分 析 人 员 。 
R 的 官方 包 中 自 带 有 相当 丰富 的 分 析 命令 和 函数 以 及 主要 的 作 图 工具 。 但 R 最 大 的 优点 在 于 其 超 
强 的 扩展 性 ， 你 可 以 通过 下 载 扩展 包 来 扩展 其 分 析 功 能 ， 并 且 这 些 扩展 包 也 是 开源 的 。R 社区 拥 
有 一 群 非常 热心 的 志愿 者 ， 这 使 得 R 的 分 析 功 能 一 直 都 很 丰富 。 


1.4 RR 在 数据 分 析 中 的 优势 


在 数据 分 析 中 ， 重 要 的 是 要 解决 如 何 将 数据 分 析 技术 ， 集 成 到 复杂 的 业务 信息 应 用 环境 中 。 
对 于 数据 科学 家 来 说 ，R 语言 无 疑 是 他 们 的 最 佳 选择 。 


R 作为 一 门 编程 语言 在 以 下 三 个 方面 具有 很 强 的 优势 : 数据 处 理 、 统 计 和 数据 可 视 化 。 和 其 
他 数据 分 析 工 具 不 同 的 是 ， 它 是 由 统计 学 家 开发 的 ， 是 免费 的 软件 ， 并 且 可 以 通过 用 户 开发 的 包 
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进行 扩展 。 目 前 在 CRAN 中 大 约 有 4 800 多 个 包 ， 而 且 包 的 数量 一 直 是 在 不 断 增 加 的 。 


R 的 好 处 不 仅仅 在 于 其 是 免费 的 ， 更 重要 的 是 其 是 开源 的 ， 所 以 它 很 灵活 ， 更 新 速度 也 快 ， 
且 集 思 广 益 。 而 且 R 有 点 像 是 一 种 网 络 ， 用 的 人 越 多 ,贡献 的 人 也 越 多 ， 这 样 其 价值 就 成 几何 级 


数 上 升 。 


R 的 编程 思想 非常 简单 ， 几 乎 就 像 写 数学 公式 一 样 简单 ， 学 过 C 和 C++ 等 底层 语言 的 人 就 会 
知道 R 的 编程 是 很 简单 的 ， 且 R 是 一 种 面向 对 象 的 高 级 语言 。 只 要 有 人 稍 加 指点 ，R 入 门 者 很 快 
就 能 学 会 其 基本 操作 ! 


总 之 ，R 的 特点 是 功能 强大 、 开 源 和 免费 ， 其 在 数据 分 析 方 面 的 主要 优势 如 下 : 


R 具有 强大 的 数学 统计 分 析 功 能 ， 是 可 以 使 用 的 最 为 全 面 的 统计 分 析 包 。 它 综合 了 所 有 
标准 的 统计 测试 、 模 型 和 分 析 ， 同 时 还 为 管理 和 处 理 数据 提供 了 一 种 全 面 的 语言 。 统 计 
方面 最 新 的 技术 和 创意 ， 通 常 首先 在 R 中 出 现 。 

R 拥有 4800 多 个 可 用 的 、 高 质量 的 、 来 自 不 同 领域 的 软件 包 ， 这 些 软件 包涵 盖 了 从 统 
计 计 算 到 机 器 学 习 ， 从 金融 分 析 到 生物 信息 ， 从 社会 网 络 分 析 到 自然 语言 处 理 ， 从 各 种 
数据 库 各 种 语言 接口 到 高 性 能 计算 模型 ， 可 以 说 无 所 不 包 ， 无 所 不 容 ， 这 也 是 为 什么 R 
正在 获得 越 来 越 多 各 行 各 业 的 从 业 人 员 喜 爱 的 一 个 重要 原因 。 

R 具有 强大 的 科学 数据 可 视 化 功能 ， 能 提供 各 种 统计 分 析 及 图 形 显示 工具 ， 图 形 能 力 出 
色 。 它 提供 了 一 种 完全 可 编程 的 图 形 语 言 ， 胜 过 了 大 多 数 其 他 统计 和 图 形 软件 包 。 对 数 
据 分 析 来 说 ， 数 据 可 视 化 是 锦上添花 的 一 部 分 ， 对 于 从 数据 中 挖掘 出 规则 和 信息 ， 将 这 
些 结果 可 视 化 出 来 ，R 提供 了 优秀 的 数据 可 视 化 功能 。 

R 是 开源 软件 ， 允 许 任何 人 对 其 修改 。 根 据 GNU 组 织 的 批准 ， 其 版 权 由 做 统计 计算 的 
R 基金 会 拥有 。R 欢迎 任何 人 提供 错误 修复 、 代 码 改 善 和 新 的 软件 包 , 而 且 , 对 R 来 说 ， 
可 用 的 大 量 高 质量 的 软件 包 ， 是 用 这 种 方法 来 进行 软件 研发 和 共享 的 证 明 。 

R 是 免费 软件 ， 没 有 特许 限制 ， 允 许 任何 人 来 使 用 它 ， 因 此 ， 我 们 可 以 在 任何 地 点 、 任 
何 时 间 运 行 它 ， 甚 至 可 以 根据 特许 的 条 件 而 出 售 它 。 

R 是 一 个 支持 跨 平 台 的 软件 。R 可 以 在 常见 的 操作 系统 和 不 同 的 硬件 上 运行 ， 比 如 它 可 
以 在 GNU/Linux、Macintosh 以 及 Microsoft Windows 上 运行 ， 既 可 在 32 位 处 理 器 上 运 
行 ， 也 可 在 64 位 的 处 理 器 上 运行 。 

R 的 扩展 性 很 强 ， 它 能 兼容 、 方 便 地 导入 其 他 很 多 不 同 格式 的 工具 和 输入 数据 ， 比 如 ， 
来 自 CSV 的 文件 .SAS、SPSS 以 及 Matlab 的 工具 软件 ,或 者 是 直接 来 自 于 Excel、Access、 
Oracle、MySQL 以 及 SQLite 的 数据 , R 都 提供 了 交互 的 接口 。R 还 可 以 产生 PDF、JPG、 
PNG 和 SVG 格式 的 图 片 输出 ， 以 及 用 于 LATEX 和 HTML 的 表格 输出 。 


wa 


数据 的 读 取 与 保存 


作为 一 个 资深 的 NBA 詹姆斯 粉丝 ， 我 能 期 望 球场 上 的 LBJ 做 各 种 事情 ， 胜 任 各 种 位 置 ， 但 
我 们 不 能 期 望 一 个 软件 可 以 做 所 有 的 事情 ，R 当然 也 不 例外 。 在 进行 数据 分 析 前 ， 我 们 首先 要 获 
取 原 始 数 据 ， 它 们 的 形式 可 能 是 多 种 多 样 的 ，R 不 一 定 能 够 直接 读 取 ， 因 此 要 想方设法 将 这 些 来 
源 不 同 、 形 式 不 同 的 数据 导入 到 R 软件 中 。 


本 章 我 们 将 一 一 介绍 各 类 数据 的 读 取 和 存储 方法 ， 为 读者 提供 一 个 尽量 全 面 、 丰 富 的 参考 。 


2.1 数据 读 取 


数据 分 析 做 到 一 定 深度 后 ， 你 会 发 现 还 是 非常 有 趣 的 ， 但 为 数据 分 析 读 入 数据 以 及 把 结果 导 
出 到 其 他 系统 以 方便 报表 编写 ， 可 能 是 一 件 比 数据 分 析 更 花 时 间 和 难 办 的 事情 。R 往往 需要 和 其 
他 软件 工具 协作 ， 如 Excel、SPSS、 网 页 ， 包 括 数据 库 系 统 。 由 于 R 不 是 专门 做 数据 管理 的 工具 ， 
因而 常 需要 专业 数据 库 的 辅助 。 不 同类 型 的 数据 格式 都 需要 R 特殊 处 理 、 区 别 对 待 。 还 好 ，R 提 
供 了 强大 的 数据 获取 功能 ，R 自身 以 及 从 CRAN 获得 的 程序 包 里 面 ， 具 有 丰富 的 数据 导入 和 导出 
功能 ， 

我 们 常 说 “万 事 开 头 难 ”， 作为 数据 分 析 的 第 一 步 ， 读 取 数 据 也 不 是 一 件 轻松 的 事 ， 尤 其 当 
数据 的 来 源 、 格 式 比较 复杂 时 。 保 证 数据 完整 而 无 遗漏 地 读 入 到 R 里 面 ， 后续 的 数据 分 析 才 有 可 
能 顺利 展开 。 由 于 数据 类 型 的 多 样 化 ，R 读 取 这 些 数据 的 方法 也 不 尽 相 同 ， 下 面 让 我 们 一 起 来 逐 
个 讨论 。 


2.1.1 读 取 内 置 数 据 集 


R 本 身 提供 了 超过 50 个 数据 集 ， 同 时 在 功能 包 〈 包 括 标准 功能 包 ) 中 附带 了 更 多 的 数据 集 。 
R 自身 提供 的 数据 集 存放 在 自 带 的 datasets 程序 包 中 。 
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通过 指令 data0 可 以 列 出 基本 系统 提供 的 全 部 数据 集 (包括 datasets 以 及 通过 library() 加 载 的 
程序 包 中 的 数据 集 )。 也 可 以 载 入 特定 的 数据 集 : 

> data() # 查 看 数据 集 列表 

> data (CO2) # 载 入 CO2 数据 集 (来 自 datasets ) 

用 library0 载 入 其 他 程序 包 后 ， 通 过 package 参数 查看 包 内 附带 的 数据 集 。 注 意 ， 用 library0) 
挂 接 package 后 ， 它 的 数据 集 也 自动 包含 到 搜索 路 径 中 了 。 

> library (MASS) # 载 入 package MASS 

> data (package="MASS")  # 查 看 MASS 中 数据 集 

> data (SP500,package="MASS") # 载 入 MASS 中 的 SP500 数据 集 ， 也 可 简化 为 data (SP500) 


2.1.2 读 取 文本 文件 


在 R 中 读 取 文 件 ， 需 要 通过 工作 目录 来 完成 。 如 果 一 个 文件 不 在 当前 的 工作 目录 中 ， 则 首先 
需要 给 出 它 的 路 径 。 


(1) 文件 目录 操作 


使 用 getwd() 指 令 可 以 返回 当前 工作 目录 ，setwd0 更 改 工作 目录 ， 但 要 注意 的 是 ， 在 R 中 文 
件 路 径 的 分 隔 符 应 为 “/” 或 者 “\”， 不 允许 包 插 符号 “\”。 更 改 目 录 也 可 以 通过 R 菜单 命令 
file->change dir... 来 完成 。 

> getwd()  # 返 回 当 前 工作 目录 

[1] "D:/R-3.0.1/Bbin/i4386" 

> setwd("d:/data") # 也 可 以 写成 setwd("d:\\data") 


> getwd() 
[1] "d:/data" 


(2) 常用 的 读 取 指令 read 


R 最 常用 的 读 取 文本 文件 (ASCII) 的 指令 是 read.table0， 它 是 读 取 矩形 格子 状 数据 最 为 便利 
的 方式 。 使 用 read.table0 指 令 读 入 后 创建 一 个 清单 (list)。 


read.table() 指 令 的 格式 如 下 : 

read.table (file, header = FALSE, sep="", quote="\"'", dec=".", row.names, col.names, 
as.is = !stringsAsFactors, na.strings = "NA", colClasses = NA, nrows = -1, 
skip = 0, check.names = TRUE, fill = !blank.lines.skip, strip.white = FALSE, 
blank.lines.skip = TRUE, comment.char = "#") 


read.table0 中 包含 很 多 参数 ， 如 表 2.1 所 示 ， 除 前 几 个 常用 的 参数 外 ， 其 他 参数 一 般 情 况 下 用 
默认 值 就 可 以 了 。 
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表 2.1 read.table() 的 参数 设置 


含义 
要 了 的 天 文人 和 

文件 中 字段 的 分 隔 符 ， 默 认为 sep=" "， 表 示 分 隔 符 是 空格 
dec 






















逻辑 值 ，TRUE 表示 文件 的 第 一 行 包含 变量 名 ， 默 认为 FALSE 
iT | 
设置 如 何 引用 字符 型 变量 。 默 认 情 况 下 ， 字 符 串 可 以 被 引号 "或 括 起 ， 如 果 没 有 设 定 分 
a 隔 字 符 ， 引 号 前 面 加 \， 即 quote="\" 
| dec | 设置 用 来 表示 小 数 点 的 字符 

向 量 的 行 名 ， 默 认为 1,2,3,…. 

| colnames 。 | 向 量 的 列 名 ， 默 认为 VL,V2,V3,… 
| mastrings | 赋 给 缺失 数据 的 值 (NA) 

开始 读 取 数据 前 跳 过 的 数据 文件 的 行 数 
是 否 跳 过 空白 行 


接 下 来 用 实际 案例 来 说 明 ， 我 们 将 要 读 入 的 数据 文件 是 15 个 城市 的 工资 指数 ， 文 件 格式 为 
存储 在 “d:data” 下 。 首 先 设 定 工作 目录 ， 再 读 入 数据 : 

> setwd("d:/data") 

> dqata=read.table ("salary.txt",header=T) 

如 果 没 有 事先 设 定 工 作 目 录 ， 也 可 以 直接 读 入 完整 的 路 径 名 称 : 


> data=read.table("d:/data/salary.txt",header=T) 






















txt 


> data 
CityWork Price Salary 
1 Amsterdam 171465.6 49.0 
2 Bombay 2052 30.3 5s3 
3 Chicago 192473.9 61.9 
4 Dublin 175976'0 41.4 
5 Frankfurt 165074.5 60.4 


【注意 】 考 虑 到 篇 幅 限制 ， 仅 显示 部 分 运行 结果 。 
与 read.table 用 法 类 似 的 指令 还 包括 read.csv 和 read.delim: 


e。 read.csv(0 用 于 读 取 去 号 分 隔 文件 ，sep 默认 值 为 ","; 
。 ”read.delim() 针 对 使 用 其 他 分 隔 符 的 数据 (并 且 不 使 用 行 号 )，sep 默认 值 为 \t"。 


这 两 个 指令 的 其 他 参数 设置 与 read.table 的 非常 类 似 ,但 要 特别 注意 header 的 默认 值 是 TRUE。 


这 两 个 函数 对 应 的 变形 read.csv20 和 read.delim20 是 专门 为 以 逗号 为 小 数 点 的 国家 设计 的 ,我 
们 一 般 不 用 。 
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如 果 上 面 例子 中 的 文件 格式 是 csv， 则 读 入 的 命令 改 为 : 


> data=read.csVv("Salary.Ccsv"vheader=T) 
要 注意 的 是 ， 使 用 read.table 或 read.csv 指令 时 ， 对 数据 格式 的 要 求 非 常 严格 ， 数 据 必 须 是 完 


是 
整 的 ， 每 一 行 数据 的 数量 都 一 样 。 如 果 出 现 缺 失 值 ， 用 read.table 读 取 时 会 报错 ， 用 read.csv 读 取 
时 会 自动 在 缺失 位 置 填补 NA。 


(3) 灵活 的 读 取 指令 scan() 


read.table() 对 数据 要 求 较 高 ， 并 且 它 不 是 一 种 有 效 地 读 取 大 数据 量 和 矩阵 的 方法 ， 下 面 要 介绍 
一 个 更 灵活 的 指令 一 一 函数 scan()。 


scan(file = "", what = double(), nmax = -1, n = -1, sep = "", 
quote = if(identicall(sep, "\n")) "" else "'\"", dec = ".",skip = 0, nlines 
= 0, na.strings = "NA", 
flush = FALSE, fill = FALSE, strip.white = FALSE, quiet = FALSE, 
blank.lines.skip = TRUE, multi.line = TRUE, comment.char = "",) 


scan 函数 的 参数 如 表 2.2 所 示 , 大 部 分 参数 与 read.table 的 设置 相同 ,需要 注意 的 是 ,没有 header 
这 一 参数 ， 而 且 仍 有 几 个 需要 加 以 特殊 说 明 。scan0 函 数 中 如 果 不 加 参数 ， 则 可 以 手动 输入 数据 。 


表 2.2 scan() 的 参数 设置 


指定 要 读 取 的 数据 类 型 ， 支 持 的 类 型 有 logical、integer、numeric、complex、character、raw 
和 list， 默 认为 数值 型 向 量 


指定 要 读 入 数据 的 最 大 数量 ， 如 果 what=list，nmax 则 为 可 以 读 取 的 行 数 。 默 认 情况 下 ， 将 读 
取 到 文件 末端 


要 读 取 数 据 的 最 大 数量 ， 默 认 值 为 没有 限制 





因为 what 参数 可 以 灵活 设置 ， 故 scan(0) 就 可 以 创建 不 同类 型 的 对 象 。 在 下 面 的 例子 中 ， 
what=list(City="",Work=0,Price=0,Salary=0) 说 明 要 创建 列表 ， 并 指定 了 列表 中 对 象 的 名 称 ， 这 是 一 
个 名 义 列表 结构 ， 用 来 指定 第 一 个 变量 City 是 字符 型 ， 后 面 三 个 是 数值 型 变量 。 

> data2=scan ("salary.txt", skip=1,what=list (City="",Work=0,Price=0,Salary=0)) 


# 由 于 不 存在 header 参数 ，skip=1 说 明 读 取 时 跳 过 表示 名 称 的 第 一 行 


Read 15 records 


> data2 
$City 
[1] "Amsterdam" "Bombay" "Chicago" "Dublin" 
[5] "Frankfurt" "London™" "LosAngeles" "LuUxembourg" 
[9] "MexicoCity" "NewYork" "Paris" "Singpore™" 
[13] "Sydney" "Taipei" "Tokyo" 
$Work 


[1] 1714 2052 1924 1759 1650 1737 2068 1768 1944 1942 1744 
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[12] 2042 1668 2145 1880 


$Price 


[4] ‘65.6 30:3 73.9 76.0 714.5 84;2 T9.8 -3713 W4958 
[10] ,83.3 BL 644 T1708 ‘84.3 115.0 


$sSalary 
KL] MQ.0. SB 6L.9 MAL .4 O04 .446.2 0652 .71 L357 65.8 45.9 


[12] 16€.1 :S2:i 34.5 68.0 


读 入 数据 后 ， 可 以 通过 一 些 简 单 的 指令 查看 数据 的 基本 信息 。mode() 指 令 用 来 显示 对 象 的 类 


型 ; names() 显 示 对 象 中 的 标签 , 在 上 面 的 例子 中 就 是 list 包含 的 变量 名 称 ; dim0 显 示 对 象 的 维 数 ， 
如 data 文件 中 包含 15 个 观察 记录 、4 个 变量 。 


> mode (data)  # 显 示 对 象 的 类 型 


El ls 

> names (data) # 显 示 对 象 中 的 标签 

[12] "City” "Work” "Price” "Salary" 
> dim(data) # 显 示 对 象 的 维 数 

[1] 15 4 


要 显示 列表 中 的 变量 ， 需 要 使 用 符号 $， 但 是 当 数 据 文件 中 有 很 多 变量 时 ， 多 次 使 用 $ 会 比较 


麻烦 ， 这 时 用 attach0 指 令 ， 可 以 直接 通过 变量 名 称 来 获取 变量 中 的 信息 。detach() 可 撤销 操作 。 


> data$Salary 
[1] 49.0 5.3 61.9 41.4 60.4 46.2 65.2 71.1 5.7 65.8 45.9 


tha L161 521345 68:0 
> attach (data) 


> Salary 
[LWAQSO S36l1,.9 41 ,4 6054 46.2.16552 71 BT 65.8 4559 


[2] M1 S21 34.53 ‘G80 
> detach (data) 


> Salary 
Error: object 'Salary' not found 


2.1.3 读 取 固 定 宽度 格式 的 文件 


有 些 数据 文件 格式 非常 规整 , 但 没有 分 隔 符 , 就 需要 我 们 在 读 取 时 手动 划分 每 个 字段 的 长 度 ， 


这 时 需要 用 到 的 函数 是 read.fwf()， 它 以 行 的 方式 首先 读 入 数据 ， 通 过 widths 参数 指定 一 个 向 量 ， 
来 设置 各 个 字段 的 宽度 ， 注 意 小 数 点 也 占 一 个 字符 。 


例如 有 一 个 txt 文件 (di\data\fwf.txt)， 如 下 所 示 : 


AA200530.31.2 
AB200773.91.3 
BB201184.21.4 
BC201083.31.5 
CC200981.61.6 
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通过 如 下 命令 将 txt 文件 读 入 ，widths 分 别 指定 4 个 变量 的 宽度 ，col.names 指定 4 个 变量 的 
名 称 : 


> data.fwf=read.fwf ("d:/data/fwf.txt",widths=c (2,4,4,3),col.names=c ("W", "X","Y", "2")) 
> data.fwf 
Ww xX 下 “所作 

1 AA 2005 30.3 1 
2 AB 2007 73.9 1 
3 BB 2011 84.2 1. 
4 BC 2010 83,3 1 
S Ce 2009 81.6 1 


on 心 wm 和 


注意 : 文本 文档 中 最 后 一 行 的 回 车 符 很 重要 ， 这 是 一 个 类 似 于 停止 符 的 标识 ， 否 则 读 入 
时 会 显示 “最 后 一 行 不 完整 ”的 警告 ， 但 也 不 影响 数据 读 入 的 效果 。 


2.1.4 读 取 Excel 数据 


Excel 数据 是 我 们 平时 最 常用 的 表格 数据 , 一 般 比 较 简 单 的 数据 分 析 工 作 都 可 以 在 Excel 中 完 
成 ， 因 此 很 多 数据 都 会 保存 为 .xls 和 .xlsx 文件 。 用 R 做 数据 分 析 时 ， 就 免不了 要 与 Excel 互动 。 


在 R 中 打开 Excel 表 格 数据 有 多 种 方式 ,最 简单 的 一 种 是 从 剪贴 板 中 读 取 数据 首先 打开 Excel 
表格 ， 选 中 需要 的 数据 后 复制 〈 按 快捷 键 Ctrl+C)， 如 图 2.1 所 示 ， 这 时 我 们 需要 的 数据 就 被 存放 
在 剪贴 板 了 。 





图 2.1 复制 Excel 中 的 数据 


然后 在 R 中 输入 以 下 指令 : 


> data.excel=read.delim("clipboard") #clipboard 即 前 贴 板 
> mode (data.excel) ;dim(data.excel) 

[EE] et" 

[1] 15 4 


读 入 的 数据 集 data.excel 与 上 文中 通过 read.table0) 读 入 的 数据 集 data 完全 一 样 ， 都 是 列表 ， 
含有 4 个 变量 、15 个 记录 。 


但 是 当 数 据 量 较 大 时 ， 直 接 导 入 比 使 用 剪贴 板 更 加 方便 ， 因 此 这 里 介绍 另 一 种 方法 一 一 使 用 
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程序 包 RODBC (可 以 从 R-project 的 官网 下 载 )。 当 计算 机 连接 到 网 络 时 ， 也 可 以 通过 如 下 命令 
直接 安装 程序 包 : 


> install .packages ("RODBC") 


RODBC 提供 了 R 和 各 类 数据 库 的 一 个 接口 ， 通 过 它 可 以 实现 R 和 Access、Excel、dBase 和 
SQL Server 等 多 种 软件 的 连接 。 其 中 获取 Excel 连接 的 函数 是 odbcConnectExcel() 和 
odbcConnectExcel2007()， 分 别 用 来 读 取 Excel 2003 版 (扩展 名 为 .xls) 和 2007 版 〈.xlsx) 数据 。 
读 入 Excel 数据 的 具体 步骤 如 下 : 

> library (RODBC) 

> channel=odbcConnectExcel2007("d:/data/Salary.xlsx") # 获 取 Excel 连接 

> sqlTables (channel) # 列 出 Excel 中 的 表格 

TABLE CAT TABLE SCHEM TABLE NAME TABLE TYPE REMARKS 


1 d:\\data\\Salary.xlsx <NA> Sheet1$ SYSTEM TABLE <NA> 
2 d:\\data\\Salary.xlsx <NA> Sheet2$ SYSTEM TABLE <NA> 
3 d:\\data\\Salary.xlsx <NA> Sheet3$ SYSTEM TABLE <NA> 


获取 Sheetl 中 的 数据 ， 可 以 使 用 如 下 任意 一 种 方式 。sqlFetch() 直 接 读 取 Excel 连接 中 的 一 个 
表 到 R 数据 框 或 列表 中 ，sqlQuery0 在 Excel 连接 上 执行 SQL 查询 语句 ， 并 返回 结果 。 

> data.excel2=sqlFetch (channel, "Sheet1") 

> data.excel2=sqlQuery (channel, "select*from[Sheet1$]") 

> close (channel) # 关 闭 ODBC 连接 ， 释 放空 间 

> mode (data.excel2) ;diml(data.excel2) 

[LL "List” 

习 】〗 瑟 4# 


2.1.5 读 取 数 据 库 文件 


R 软件 一 般 将 数据 置 于 内 存 ， 数 据 处 理 能 力 有 限 。 然 而 在 当前 这 个 “大 数据 ”时 代 下 ， 数 据 集 
的 容量 很 大 , 往往 以 数据 库 文件 的 形式 出 现 , 这 种 情况 下 , 我 们 使 用 R 进行 数据 分 析 、 数 据 挖掘 前 ， 
都 会 先 用 RODBC、RJDBC、RMySQL 等 相关 的 包 来 调用 数据 库 。 然 而 ， 基 本 上 各 大 数据 库 厂商 已 
有 相应 的 R 语言 企业 级 应 用 产品 ， 这 些 厂 商 包括 Oracle、IBM、Teradata、Sybase、SAP 等 。 


e Oracle R Enterprise 

Oracle R Enterprise 针对 于 大 数据 市 场 ， 用 于 处 理 日 益 丰 富 的 数据 ， 它 将 R 的 瓶颈 完全 打开 。 
Oracle R Enterprise 允许 DBA 将 R 语言 模型 产品 化 ， 可 以 将 R 模型 整合 到 BI 仪表 盘 (BIEE), 提 
供 了 高 性 能 的 代数 运算 (在 R 中 整合 Intel's Math Kernel Library )， 高 度 整合 了 R 语言 快速 开发 、 
数据 库 并 行 计算 的 优势 。 

e IBM Netezza 


Netezza 对 R 语言 的 支持 ， 主 要 通过 调用 R Enterprise from Revolution Analytics 平台 来 实现 。 
Netezza 的 特点 可 以 总 结 为 : 可 扩展 、 高 性 能 、 大 规模 内 置 并 行 分 析 平 台 。 
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ee IBM InfoSphere BigInsights 

IBM BigInsights 同样 也 整合 了 R 语言 资源 ， 提 供 了 MapReduce 架构 的 及 语言 并 行 化 计算 环 
境 , 包括 了 大 数据 集 的 文本 挖 据 和 机 器 学 习 算 法 。 BigInsights 可 以 将 构建 的 R 语言 模型 发 布 在 Hadoop 
平台 上 ( 同 IBM Netezza 一 样 ， 通 过 调用 R Enterprise from Revolution Analytics)， 这 可 以 极 大 地 
满足 企业 级 数据 需求 。 


se SAPHANA 

借助 SAP Business Objects Predictive Analysis 平台 , 分 析 师 们 既 可 以 使 用 内 置 的 预测 性 算法 来 
构建 模型 ， 也 可 以 整合 并 使 用 流行 的 开源 数据 统计 分 析 语 言 一 一 R 语言 。 并 且 ， 依托 SAP HAHA 
平台 可 以 进行 in-database 分 析 。 


e Teradata 
Teradata 提供 了 免费 的 teradataR 包 ， 用 于 在 R 环境 下 连接 Teradata 数据 库 、 创 建 数据 、 调 用 
in-database 分 析 函 数 。 


e SybaseRAP 

Sybase RAP 主要 用 于 对 金融 市 场 的 实时 分 析 ， 其 中 RAPStore 组 件 提供 了 内 置 分 析 函 数 ， 包 
括 时 间 序 列 分 析 函 数 、OLAP 函数 、R 语言 整合 函数 以 及 用 户 自 定义 函数 ， 其 适用 于 大 数据 环境 。 
同时 ， 还 可 以 在 RR 语言 环境 下 通过 RJDBC 访问 Sybase RAP， 进 行 数据 预 处 理 ， 避 免 在 R 中 做 数 
据 清 洗 占 用 大 量 内 存 。 


以 上 这 些 平台 主要 出 现在 企业 中 ， 进 行 大 数据 的 高 端 处 理 。 接 下 来 我 们 还 是 回 到 R 软件 中 ， 
看 看 各 程序 包 在 R 与 数据 库 的 连接 中 如 何 应 用 。 


(1) 通过 RODBC 读 取 数据 库 
前 面 提 到 过 ， 程 序 包 RODBC 提供 了 R 和 各 类 数据 库 的 连接 。ODBC (Open Database 
Connectivity) 是 Microsoft 提出 的 数据 库 访 问 接口 标准 ， 通 过 返回 ODBC 连接 ，RODBC 提供 了 
从 数据 库 中 提取 数据 、 回 传 数据 等 功能 , 并 且 能 够 很 方便 地 使 用 SQL 语句 ,通过 odbcDataSources() 
函数 可 查看 可 用 的 数据 源 : 
> odqbcDataSources () 
MS Access Database 
"Microsoft Access Driver (*.mdb)" 
Excel Files 
"Microsoft Excel Driver (*.xls)" 


dBASE Files 
"Microsoft dBase Driver (*.dbf)" 


程序 包 RODBC 中 最 基础 的 函数 为 odbcConnect(), 其 可 以 直接 返回 一 个 ODBC 连接 ,与 Excel 
类 似 ， 获 取 Access 连接 的 函数 分 别 为 


odbcConnectAccess (access.file uid = "", pwd = "", ...) 
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odbcConnectAccess2007 (access.file, uid = "", pwd = "", ...) 


其 中 ，access.file 表示 要 读 入 的 文件 名 称 ，uid 和 pwd 分 别 表示 用 户 名 和 密码 。 读 入 Access 
数据 的 步骤 与 读 入 Excel 的 完全 相同 ， 因 此 不 再 举例 说 明 。 在 R 中 获取 数据 库 连 接 后 ， 可 以 进行 
一 系列 SQL 语句 的 操作 ， 主 要 的 函数 如 表 2.3 中 所 示 。 

表 2.3 RODBC 中 与 SQL 相关 的 函数 
| 







读 取 ODBC 连接 中 的 一 个 表 到 R 的 数据 框 中 
在 ODBC 连接 上 执行 查询 语句 并 返回 结果 
给 出 ODBC 连接 对 应 的 数据 库 中 的 数据 表 





复制 ODBC 连接 中 的 查询 结果 到 另 一 个 ODBC 连接 中 
出 除 ODBC 过 楼 中 的 一 个 表 
清空 ODBC 连接 中 的 指定 数据 表 内 容 


由 于 使 用 RODBC 读 取 数 据 库 的 操作 与 读 取 Excel 的 方法 基本 上 没有 差别 ， 故 可 参考 上 一 节 
的 案例 ， 这 里 就 不 再 效 述 了 。 


Oracle 数据 库 是 非常 常用 的 数据 库 , 它 也 可 以 通过 RODBC 进行 读 取 , 请 看 下 面 这 个 小 例子 。 


假设 Oracle 的 数据 库 名 是 LEV2， 用 户 名 为 L2st， 密 码 是 sa， 并 且 在 LEV2 数据 库 中 有 一 个 
表 TC_SNT， 里 面 有 若干 字段 ， 其 中 有 ID 和 记录 时 间 RECORD_TIME。 下 面 把 一 些 常用 的 代码 
语句 列 出 : 

# 加 载 库 

library (RODBC) 

# 建 立 连 接 访 问 数 据 库 

channel<-odbcConnect ("LEV2", uid="L2st",pwd="sa") 

# 访 问 数 据 表 TC_SNT 

sntl<-sqlFetch (channel, "TC_SNT") 

# 查 询 ID=1 的 历史 值 ， 按 记录 时 间 逆 序 排列 

wa=sqlQuery (channel, 'SELECT * FROM TC_SNT WHERE ID=1 order by RECORD TIME desc ') 

# 提 取 最 近 24 个 数据 


wa2=head (wa, n=24) 


(2) 通过 RMySQL/DBI 读 取 数据 库 


程序 包 RMySQL 提供 了 针对 MySQL 数据 库 系 统 的 接口 ， 早 期 版 本 存在 不 一 样 的 接口 ， 当 前 
需要 DBI 程序 包 的 支持 ，DBI 的 主要 功能 是 由 字符 向 量 产生 一 个 合法 的 SQL 标识 ， 从 而 提供 一 
个 读 取 SQL 的 接口 ,MySQL 执行 数据 库 接 口 (DBI)。 可 以 简单 地 理解 为 程序 包 DBI 提供 函数 和 
接口 ， 而 RMySQL 提供 方法 ， 是 R 读 入 MySQL 数据 库 的 一 个 驱动 器 ， 两 个 程序 包 合 作 完 成 对 
MySQL 数据 库 的 连接 。 
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加 载 程 序 包 后 ， 就 可 以 直接 调用 DBI 中 的 函数 ，dbDriver0 会 返回 一 个 数据 库 连接 管理 对 象 ， 
调用 dbConnect() 可 打开 一 个 数据 库 连接 ， 而 泛 型 函数 dbDisconnectO 用 来 关闭 连接 。 特 别 地 ， 对 
于 Oracle《〈 甲 骨 文 ) 和 SQLite 系统 ， 分 别 使 用 程序 包 ROracle 或 RSQLite 调用 dbDriver0 函 数 ， 
而 不 是 RMySQL。 


SQL 查询 可 以 通过 dbGetQuery 或 dbSendQuery 传 给 数据 库 管理 系统 。dbGetQuery 传送 查询 
语句 ， 把 结果 以 数据 框 形式 返回 。dbSendQuery 传送 查询 ， 还 可 以 通过 调用 dbClearResult 清除 
结果 。 


函数 fetch0 用 于 获得 查询 结果 的 部 分 或 全 部 行 ， 并 以 列表 返回 。 函数 dbHasCompleted() 确定 
是 否 所 有 行 都 已 经 获得 ， 而 dbGetRowCount0 返 回 结果 中 行 的 数目 。 


以 上 都 是 数据 库 连 接 、 获 得 SQL 查询 的 函数 ， 当 读 入 这 些 结果 后 ，dbReadTable() 和 
dbWriteTable() 实 现 R 数据 框 的 读 入 和 将 其 存储 至 数据 库 ， 把 数据 框 的 行 名 映射 到 MySQL 表 的 


row_names 字段 。 


目前 RMySQL 只 支持 在 Linux 和 Macintosh 环境 下 运行 的 包 ， 若 在 Windows 环境 下 使 用 
install.packages("RMySQL"，type="source")， 则 得 到 的 结果 是 下 载 正确 ， 但 安装 失败 。 若 要 在 
Windows 环境 下 安装 ， 首 先 要 安装 MySQL 数据 库 ， 官 网 在 RMySQL 介绍 页 面 给 出 的 URL 链接 
为 http://biostat.mc.vanderbilt.edu/wiki/Main/RMySQL， 按 步骤 进行 安装 。 


假设 安装 MySQL 时 , 设置 user 为 root, 密码 是 6 个 1, 并 且 在 MySQL 中 已 经 建立 了 名 为 test 
的 数据 库 ， 里 面 有 一 个 表 students， 其 中 有 三 个 字段 name、age 和 sex。 下 面 把 一 些 常用 的 代码 语 
句 列 出 : 


> library (RMySQL) # 加 载 RMySQL 包 ， 同 时 也 会 加 载 DBI 包 

# 打开 一 个 MySQL 数据 库 的 连接 

> con=dbConnect (MYSQL () ,user="root",password="111111",dbname = "test") 
# 将 数据 库 中 的 表 名 存 入 table .names， 方便 查看 

> table.names=dbListTables (con) 

# 列 出 表 students 中 的 字段 

>field.names=dbListFeilds (con,"students") 

# 获 得 并 列 出 整个 表 

>dbReadTable (con, "students") 

>dbSendQuery (con, "SET NAMES gbk") # 传 送 查 询 ,说 明 用 什么 字符 集 来 获取 数据 库 字 段 ，gbk 或 utf8 
要 与 之 前 设置 的 保持 一 致 。 

>query=dbSendQuery (con, "select * from students order by age") 

>fetch (query) # 显 示 以 年 龄 排序 的 查询 结果 

# 删除 表 ( 删除 成 功 后 显示 逻辑 值 TRUE ) 

>dbRemoveTable (con, "students") 


# 关闭 连接 
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>dbDisconnect (con) 


(3) 通过 RJDBC 读 取 数据 库 


R 连接 数据 库 实 现 的 技术 主要 包括 ODBC 和 JDBC 两 大 方面 ，JDBC (Java Data Base 
Connectivity) 是 Java 数据 库 连 接 ， 其 由 一 组 用 Java 语言 编写 的 类 和 接口 组 成 。 


程序 包 RJDBC 提供 了 基于 JDBC 接口 的 数据 库 连 接 功能 ， 同 时 需要 程序 包 rJava 的 支持 。 和 
RMySQL 一 样 ，RJDBC 仍然 调用 DBI 中 的 函数 实现 数据 库 连 接 ， 其 也 是 一 个 驱动 器 的 功能 ， 不 同 
的 只 是 数据 库 接口 变 为 JDBC。 RJDBC 支持 Windows 版 本 , 在 安装 的 同时 也 将 rJava 一 同安 装 进 R。 


首先 通过 函数 JDBC0O 创 建 一 个 新 的 DBI 驱动 程序 ， 用 于 启动 JDBC 连接 。 函 数 JDBCO 的 常 
用 格式 为 : 


JDBC (driverClass = "", classPath = "", identifier.quote = NA) 


其 中 ，driverClass 指定 要 加 载 的 JDBC 驱动 程序 的 Java 类 名 ; classPath 指定 所 需 的 JDBC 驱 
动 程序 的 类 路 径 ， 通 常 是 包含 驱动 程序 的 JAR 文件 的 路 径 ; identifier.quote 指定 引号 标识 符 。 


通过 JDBC 获取 连接 后 , 读 入 数据 库 和 SQL 查询 的 函数 均 调用 自 程序 包 DBI， 语 句 与 上 一 节 
介绍 的 完全 一 致 。 

>library (RUDBC) 

>help (JDBC) 

>drv=JDBC ("com.mysql.jdbc.Driver", "V/etc/jdbc/mysdql-connector-java-3.1.14-bin.Jja 


rv" 7 A 有 

>conn=dbConnect (drv, "jdbc:mysql://localhost/test") 
>dbListTables (conn) # 列 出 数据 库 中 的 表 

>dbGetQuery (conn，"select count (*) from iris") # 执 行 查询 


如 果 需 要 进一步 深入 地 了 解 ， 可 以 使 用 help(JDBC)， 查 看 程序 包 中 自 带 的 例子 。 


2.1.6 ” 读 取 网 页 数据 


可 扩展 标记 语言 ‘Extensible Markup Language，XML) 用 于 标记 电子 文件 ， 使 其 成 为 结构 性 
的 标记 语言 ， 可 以 用 来 标记 数据 、 定 义 数据 类 型 ， 是 一 种 允许 用 户 对 自己 的 标记 语言 进行 定义 的 
源 语言 。 

在 实际 的 数据 分 析 中 ， 最 常见 的 XML 语言 就 是 网 页 数据 ,我 们 经 常 要 从 网 页 获取 表格 数据 ， 
例如 股票 、 债 券 数 据 往 往 需 要 从 网 站 上 直接 获得 。 


R 中 的 程序 包 XML 为 读 写 XML 文档 提供 了 通用 的 工具 。 


在 R 中 要 读 取 网 页 上 的 HTML 表格 数据 ， 要 利用 程序 包 XML 中 的 readHTMLTableO 函 数 ， 
其 调用 格式 如 下 : 


readHTMLTable (doc, header = NA, colClasses = NULL, skip.rows = integer(), trim= TRUE, 
elFun = xmlValue, as.data.frame = TRUE, which = integer(), ...) 
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其 主要 参数 如 表 2.4 所 示 。 


表 2.4 readHTMLTable() 的 参数 设置 













jdoc | HTML 文 件 或 URL (网 页 网 址 ) 
车 为 逻辑 值 ， 表 示 是 否 包含 列 标签 ， 若 为 字符 向 量 ， 则 为 列 名 称 赋值 


colClasses 一 个 列表 或 向 量 , 指定 表 中 的 各 列 数据 的 类 型 .除了 通常 的 "integer"、"numeric"、"logical" 
和 "character"， 还 可 以 使 用 FormattedNumber 引入 一 个 新 的 类 
skip.rows 指定 要 忽略 的 行 


| tim | 逻辑 值 ， 表 示 是 否 要 删除 开头 和 结尾 的 空白 单元 格 
整数 向 量 ， 表 示 返 回 网 页 中 的 哪儿 个 表格 


下 面 以 东方 财富 网 站 的 股票 数据 为 例 ， 我 们 使 用 R 提取 网 页 上 的 股票 数据 。 


首先 提取 网 址 ， 通 过 readHTMLTable 读 取 表格 ， 一 个 网 站 页 面 可 能 包含 多 个 表格 ， 使 用 
which=1 指定 要 读 取 的 是 第 一 个 表 。 从 结果 可 以 看 出 ， 我 们 读 取 的 数据 table 是 一 个 列表 ， 有 4 行 
和 7 个 变量 。 





> install.packages ("XML") # 安 装 解析 XML 的 包 

> library (XML) 

> baseURI="http://data.eastmoney.com/center/stock.html" # 存 入 网 址 
> table=readHTMLTable (baseURL, header=TRUE,which=1) 

> mode (table) ;dim(table)  # 查 看 table 的 类 型 和 数据 维度 

tL et" 

| 布丁 


注意 : 使 用 XML 程序 包 时 ， 由 于 XML 包 编 码 方式 的 问题 ， 若 表格 的 变量 名 为 中 文 ， 
则 读 入 后 会 出 现 乱 码 ， 如 输入 : 


> head(table,2) # 查 看 列表 table 前 两 行 的 数据 


从 结果 可 以 看 出 ， 显 示 中 有 乱码 。 因 此 ， 需 要 对 表格 中 的 变量 名 重新 赋值 。 若 names 为 英文 
则 不 会 出 现 问题 。 

> names (table)=c ("类 别 ", "成交 量 (万 股 )", "成 交 人 金额 ( 亿 元 )"," 总 市 值 ( 亿 元 )", "流通 市 值 ( 亿 元 ) "v" 

上 市 公司 (家 ) "， "平均 市 盈 率 ") # 给 变量 名 重新 赋值 

> tableS$ 类 别 =c (" 沪 市 "," 深 市 "," 中 小 板 "，" 创 业 板 ") ”# 给 第 一 个 变量 "类 别 "重新 赋值 

> head (table, 2) 


替换 中 文字 符 后 ， 没 有 乱码 了 。 
笔者 作为 一 个 NBA 的 球迷 ， 和 詹姆斯 的 铁杆 粉丝 ， 常 常 在 篮球 网 站 上 浏览 球员 的 职业 生涯 数 
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据 ， 这 些 数据 都 是 以 HTML 表格 出 现 的 。 在 一 些 评 论文 章 中 ， 作 者 会 对 数据 进行 绘图 、 比 较 ， 以 
得 到 更 有 说 服 力 的 球员 对 比 情况 ， 其 实 这 些 我 们 也 可 以 在 R 中 实现 ， 第 一 步 就 是 先 把 网 页 上 的 表 
格 导入 。 


例如 读 取 勒 布朗 詹姆斯 的 10 年 生涯 数据 ， 会 得 到 一 个 有 26 个 变量 的 列表 ， 该 列表 记录 了 
他 每 年 的 平均 得 分 、 篮 板 和 命中 率 等 信息 ， 这 些 都 是 以 英文 和 数字 记录 的 ， 所 以 读 入 后 不 会 出 现 
乱码 。 
> u="http://www.basketbal1-reference.com/pPlayers/]j/Jjamesle01.htm1l" 
> James <- readHTMLTable (readLines (u), which=3, header=TRUE) 
> dim(James) 
Fa Td 26 
> James[1:5,1:10] # 查 看 前 5 年 的 数据 ， 取 其 中 前 10 个 变量 
Season Age Tm Lg Pos G GS MP FG FGA 
2003-04 19 CLE NBA SG 79 79 3122 622 1492 
2004-05 20 CLE NBA SF 80 80 3388 795 1684 
2005-06 21 CLE NBA SF 79 79 3361 875 1823 
2006-07 22 CLE NBA SF 78 78 3190 772 1621 
2007-08 23 CLE NBA SF 75 74 3027 794 1642 


2.1.7 读 入 愉 格式 的 文件 


R 的 数据 或 更 一 般 的 对 象 〈 如 向 量 、 和 矩阵 、 数 据 框 、 列 表 甚 至 函数 等 可 以 通过 save() 
保存 为 R 专 有 的 文件 格式 ， 以 Rdata 为 后 级 。 要 读 取 这 类 文件 ， 需 要 用 到 函数 load0 来 加 载 。 

例如 先前 把 数据 集 data 的 数据 存储 在 salary.Rdata 中 ， 注 意 数 据 框 的 名 称 与 文件 名 不 一 致 ， 
可 通过 如 下 命令 重新 载 入 数据 框 data: 

> load("d:/data/salary.Rdata") 


> head (data, 5) # 显 示 数 据 框 前 5 行 的 记录 
City Work Price Salary 


DP 


1 Amsterdam 1714 65.6 49.0 
2 Bombay 2052 30.3 5.3 
3 Chicago 1924 73.9 61.9 
4 Dublin 1759, 76-0， 41.4 
5 


Frankfurt 1650 74.5 60.4 


2.1.8 从 其 他 统计 软件 读 入 数据 


有 时 R 需要 读 取 其 他 统计 软件 的 数据 文件 ， 如 SAS、SPSS、Stata、Minitab 和 S-PLUS 等 ， 
使 用 程序 包 foreign 可 以 解决 这 一 问题 。 


foreign 中 包含 读 入 各 种 统计 软件 数据 的 函数 ， 如 表 2.5 所 示 。 
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表 2.5 程序 包 foreign 的 主要 函数 


read.spss() 读 取 SPSS 里 面 save 和 export 命令 创建 的 文件 ， 返 回 一 个 列表 含有 标签 “label) 的 SPSS 
变量 ， 可 以 选择 转换 为 R 中 的 因子 (factor) 


六 Xinib 表 和 
读 入 SAS 永久 数据 集 〈.ssd 或 .sas7bdat) 


读 入 SAS 传输 格式 (XPORT) 的 文件 ， 并 且 返 回 一 个 数据 杠 
read.SO 读 取 二 进 制 数据 文件 ， 或 由 S-PLUS 版 本 3 以 上 产生 的 数据 转 存 文 件 。 它 能 读 取 的 不 是 全 
部 S 对 象 ， 只 能 读 入 向 量 、 和 矩阵、 数据 框 和 列表 


读 入 Stata 版 本 5 一 11 的 二 进 制 文件 。 有 标签 的 Stata 变量 同样 可 以 选择 转换 为 因子 


| 西数 | 功能 


read.epiinfo() 读 取 Epi Info 版 本 6 及 更 早 的 .REC 格式 的 数据 文件 。 Epi Info 是 由 美国 疾病 控制 中 心 提 供 
的 免费 数据 录入 和 管理 软件 


read.systat() 读 取 Systat 在 小 字 节 序 机 器 (little-endian machines)( 比 如 Windows) 上 保存 的 矩形 的 数 





据 文件 ， 这 些 文件 的 扩展 名 为 .sys 或 .syd 


SPSS 和 SAS 是 常用 的 两 个 统计 软件 ， 下 面 就 以 这 两 种 软件 的 文件 读 入 为 例 ， 介 绍 R 加 载 其 


他 类 型 文件 的 方法 。 


(1) 读 取 SPSS 数据 
SPSS 数据 存放 在 扩展 名 为 .sav 的 文件 中 ， 通 过 指令 read.spss0 读 取 。 


> library (foreign) 
> data.spss=read.spss ("d:/data/salary.sav",to.data.frame=T) #data.spss 读 入 后 为 数据 
框 变量 
Warning message: 
In read.spss("d:/data/salary.sav", to.data.frame = T) : 
d:/data/salary.sav: Unrecognized record type 7, subtype 18 encountered in system 
file 
> diml(data.spss) 
[1] 15 4 


输入 语句 后 会 出 现 警 告 ， 这 可 能 是 由 于 SPSS 文件 包含 很 多 附加 信息 ， 如 变量 类 型 、 变 量 长 


度 等 ，R 在 读 入 时 无 法 全 部 识别 才 会 出 现 警告 信息 ， 但 这 并 不 影响 完整 地 读 入 数据 框 data.spss， 
工资 的 记录 都 完整 保存 了 下 来 ， 仍 然 包 含 15 条 记录 ，4 个 变量 。 


对 于 SPSS 数据 的 读 取 ， 还 可 以 使 用 程序 包 Hmisc 中 的 函数 spss.get0， 它 可 以 导入 更 多 的 附 


加 信息 ， 例 如 变量 的 标签 〈label)。 


> library (Hmisc) 
> data.spss2= spss.get("d:/data/salary.sav") 
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(2) 读 取 SAS 数据 


相 比 SPSS，SAS 文件 的 读 取 更 为 复杂 一 些 ， 因 为 SAS 软件 是 一 款 可 以 处 理 大 数据 集 的 编程 
统计 软件 ， 其 本 身 的 复杂 程度 就 高 于 R 和 SPSS， 它 的 数据 文件 固定 地 存放 在 永久 或 临时 的 数据 
集中 。 


但 由 于 SAS 应 用 广泛 ， 实 际 操作 中 很 可 能 需要 在 R 中 调用 SAS 数据 集 。 这 里 介绍 一 种 常用 
的 也 是 相对 简便 的 方法 ， 首 先 在 SAS 中 生成 传送 文件 ， 再 到 R 中 读 取 。 


例如 ， 要 读 取 永 久 数 据 集 sasuser 中 的 公司 员工 信息 ， 存 放 至 company 文件 中 ， 首 先 SAS 生 
成 传送 文件 的 指令 如 下 : 在 永久 数据 集 r_sas 下 建立 传送 文件 ， 存 放 至 “d:/data” 路 径 下 ; 打开 传 
送 文 件 company; 将 永久 数据 集 sasuser 中 文件 company 的 数据 全 部 复制 到 传送 文件 中 去 。 

libname r sas xport 'd:/data/company.xpt'; 

data r sas.company’; 


set sasuser.company; 
run; 


SAS 中 运行 的 结果 是 : 
a 1ibname r sas xport 'd:/data/company.xpt'; 
NOTE : 已 成 功 分 配 逻 辑 库 引 用 名 R_SAS， 如 下 所 示 : 
引擎 : XPORT 
物理 名 : d:\data\company.xpt 
2 data r sas.Company; 


3 set sasuser.company; 
4 run; 


NOTE: 从 数据 集 SASUSER .COMPANY 读 取 了 8 个 观测 值 。 
NOTE: 数据 集 R_SAS .COMPANY 有 8 个 观测 值 和 4 个 变量 。 
NOTE: "DATA 语句 "所 用 时 间 ( 总 处 理 时 间 ): 

实际 时 间 0.10 秒 

CPU 时 间 0.07 秒 


接 下 来 在 R 中 读 入 传送 文件 就 比较 容易 了 ， 传 送 文件 的 扩展 名 为 .xpt， 使 用 上 面 介绍 的 函数 
read.xport0 即 可 。 读 取 后 生成 一 个 数据 框 company， 从 结果 可 以 看 出 是 一 个 具有 4 个 变量 、8 个 观 
测 值 的 数据 框 ， 这 与 上 面 的 SAS 运行 结果 一 致 。 


> library (foreign) 
> company=read.xport ("d:/data/company .xpt") 
> company 


name age sex ssn 
1 Morrison, Michael 32 M 
2 Rudelich, Herbert 39 M 029-46-9261 


3 Vincent, Martina 34 F 074-53-9892 
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4 Benito, Gisela 82 F 228-88-9649 
和 Sirignano, Emily 12 F 442-21-8075 
6 Harbinger, Nicholas 36 M 446-93-2122 
7 Phillipon, Marie-Odile 28 F 776-84-5391 
8 Gunter, Thomas 27 M 929=75-0218 


使 用 函数 sas.xport.getO 读 取 传 送 文件 也 可 以 得 到 相同 的 效果 ， 但 使 用 前 必须 同时 加 载 Hmisc 
和 foreign 两 个 程序 包 。 


>library (Hmisc) 
> library (foreign) 
> companyl=sasxport.get ("d:/data/company .xpt") 


读 取 其 他 统计 软件 数据 时 ,程序 包 foreign 使 用 得 最 为 普遍 ， 代 码 编 写 也 比较 容易 , 但 由 于 不 
同 软 件 的 特性 ， 往 往 需 要 具体 问题 具体 分 析 。 因 此 ， 在 数据 读 入 的 部 分 ，R 与 其 他 统计 软件 互相 
读 取 是 最 大 的 难点 ， 实 际 工作 中 如 果 能 够 获得 文本 文档 形式 的 原始 数据 ， 将 大 大 简化 读 取 工 作 的 
烦琐 程度 。 


2.2 ”数据 保存 


前 面 花 了 大 量 篇 幅 介绍 数据 的 导入 ， 这 对 数据 分 析 固 然 十 分 重要 ， 但 分 析 的 一 些 中 间 过 程 或 
结果 会 产生 新 的 数据 集 ， 我 们 也 需要 保存 起 来 。 根 据 需 要 ，R 中 的 数据 也 可 以 保存 为 不 同 格式 的 
文件 。 


2.2.1 使 用 函数 cat() 


函数 cat0 是 导出 数据 的 基础 ， 它 除了 可 以 在 屏幕 上 输出 对 象 之 外 ， 也 能 够 输出 成 文件 ， 其 调 
用 格式 如 下 : 


cat(..。，file = "", sep = " ", fill = FALSE, labels = NULL, append = FALSE) 
其 中 的 参数 file 表示 要 输出 的 文件 名 , 当 参 数 append = TRUE 时 , 在 指定 文件 的 末尾 添加 内 容 。 


R 可 以 通过 连续 地 调用 cat 对 一 个 文本 文件 进行 号 入 ; 但 最 好 的 方式 是 ， 特 别 是 需要 多 次 这 
样 做 的 时 候 ， 首 先 为 写 入 或 添加 文本 打开 一 个 file 连接 ， 然 后 用 cat 连接 ， 最 后 关 掉 〈close) 它 。 


创建 一 个 连接 后 默认 是 不 打开 的 , 泛 型 函数 open 和 close 可 用 于 显 式 地 打开 或 关闭 连接 ，file 
函数 也 可 以 用 于 打开 链接 。 


首先 举例 说 明 cat0 如 何在 屏幕 上 输出 对 象 ， 它 可 以 连接 多 个 字符 串 ， 也 可 以 连接 字符 串 和 数 
值 向 量 等 不 同类 型 的 对 象 。 

5 Gat(e( NB Cn (EE "PM ny Sep="") 

ABCEFn 

> i=1:5 


32 
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> cat("i = "，i，"nnnysep="yn) 井 以 过 号 为 分 隔 符 
2 


这 里 更 重要 的 功能 是 向 一 个 指定 的 文件 写 入 数据 ， 例 如 要 向 cat.txt 中 存储 数据 ， 参 数 file 指 


定 被 写 入 的 文件 ， 如 果 指 定 的 文件 已 经 存在 则 原来 内 容 将 被 覆盖 。 若 不 想 被 覆盖 ， 则 要 设置 
append=TRUE， 表 示 追 加 内 容 。 使 用 readLines() 函 数 可 以 直接 从 连接 中 以 行 的 形式 读 取 文本 。 


cat(o("AB™, "CGC"), el"E", RE) 7 ELILe=rd: /data/cat .txt",sep=".") 
> readLines("d:/data/cat .txt") 

[LL] WBC.E.E" 

> i=1:5 

> cat(i,file="d:/data/cat.txt",append=TRUE) 

> readLines("d:/data/cat .txt") 

hi, AB: CC Eel 2 3: HS 


要 用 cat0 多 次 写 入 时 ， 也 可 以 通过 file 事先 打开 一 个 连接 ， 以 简化 代码 。 
> a=file("d:/data/cat.txt") 
> cat("1 234"，"2357"，"11 13 15 17"，file=a，sep="Nn") # 分 隔 符 sep="\n" 表 示 换 行 
> read.table (a) 
V1 V2 V3 V4 
支 二 有 纪 友 
2 汉 
人 这 二 4 生 /到了 


2.2.2 ”保存 为 文本 文件 


通常 我 们 会 把 R 中 的 向 量 、 甜 了 泗 、 数 据 框 和 列表 等 对 象 写 入 一 个 文本 文件 中 并 保存 起 来 ， 例 


如 扩展 名 为 .txt 的 文件 ， 因 为 一 般 文本 文档 可 以 被 各 种 软件 读 取 ， 具 有 很 强 的 普 适 性 。 


最 常见 的 工作 是 把 一 个 矩阵 或 数据 框 以 数字 的 矩形 网 格 方式 写 入 文件 中 ， 而 且 还 可 能 保留 


行列 的 标签 。 这 可 以 通过 函数 write.table 和 write 来 完成 。 


符 、 


函数 write 仅 可 以 写 出 一 个 矩阵 或 向 量 的 特定 列 〈 和 对 一 个 矩阵 进行 转 置 )。 
函数 write.tableO0 则 更 为 便利 ， 它 可 把 一 个 数据 框 或 列表 等 对 象 以 包含 行列 标签 的 方式 写 出 。 
函数 write.table0 的 调用 格式 如 下 所 示 : 


write.table(x, file = "", append = FALSE, quote = TRUE, sep = " ", eol = "\n", na = "NA", 
dec = ".", row.names = TRUE, col .names = TRUE) 

其 中 ，x 表示 要 写 入 的 对 象 ， 最 好 是 矩阵 或 数据 框 ;，quote 是 逻辑 值 ，TRUE 表示 变量 名 等 字 

因子 要 用 双 引 号 括 起 来 ; sep 指定 分 隔 符 ; row.names/col.names 也 是 逻辑 值 ，TRUE 表示 将 行 


名 / 列 名 写 入 文件 中 。 


例如 ， 在 数据 读 取 中 得 到 的 数据 框 为 data， 我 们 把 它 保 存 为 简单 的 文本 文件 salary1.txt。 


>data=read.table("d:/data/salary.txt",header=T) 
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>write.table (data, file="d:/data/salaryl .txt",col.names=T, quote=F) 


可 见 ,read.table() 和 write.table() 就 像 两 个 互 逆 函 数 一 样 ,保存 后 的 salary1.txt 和 之 前 的 salary.txt 
文件 内 容 是 一 模 一 样 的 。 


还 可 以 使 用 write.csvO 将 数据 框 保存 成 逗号 分 隔 文件 ， 方 法 与 上 面 一 样 ， 但 是 不 包含 列 名 ， 
即 col.names =NA。 将 row.names 设置 为 FALSE， 和 否则 存 入 文件 时 会 把 行 名 1,.2,3,…. 也 写 入 。 这 样 
当 再 次 读 入 csv 文件 时 ， 得 到 的 数据 框 与 data 一 样 。 


> write.csv (data, file="d:/data/salaryl .csv",row.names=F, quote=F) 
> data.csv=read.csv("d:/data/salaryl .csv") 

> dim(data.csv) 

[1] 15 4 


2.2.3 保存 R 格式 文件 


涉及 多 个 数据 集 的 统计 分 析 经 常 使 用 Rdata 文件 存储 和 加 载 数 据 ， 上 文 已 经 提 到 存储 R 格式 
文件 使 用 save0 命 令 。 例 如 R 中 已 经 有 数据 框 data， 把 它 保存 到 Rdata 文件 中 ， 下 次 使 用 时 可 以 
用 load0 再 加 载 。 


> save(dqata file="d:/data/salary1l.Rdata") 
>load("d:/data/salary.Rdata") 


2.2.4 保存 为 其 他 类 型 文件 


程序 包 foreign 除了 有 用 于 读 取 其 他 统计 软件 的 文件 的 函数 外 , 还 有 用 于 存储 的 函数 。 主 要 的 
函数 是 write.foreign()， 目 前 支持 导出 到 SPSS、Stata 和 SAS。 

write.foreign(df, datafile, codefile, package = c("SPSS", "Stata", "SAS"), ...) 

其 中 ，df 是 一 个 数据 框 ，datafile 是 输出 数据 的 文件 名 称 ，codefile 是 用 于 代码 输出 的 文件 名 
称 等 。 

例如 将 数据 框 存 为 SPSS 可 读 取 的 文件 : 

> library (foreign) 

>write.foreign (data, datafile="d:/data/salary.sav",codefile="d:/data/code.txt",pac 

kage="SPSS") 

参数 codefile 没有 默认 值 ， 因 此 必须 指定 一 个 文件 将 代码 存 入 。 

运行 后 ， 在 d:/data/ 下 会 生成 两 个 文件 : 一 个 是 SPSS 可 读 取 的 文件 ， 一 个 是 :txt 文件 。 

存储 的 文件 在 SPSS 中 打开 时 并 非 直接 可 以 读 入 ， 还 需要 根据 向 导 ， 进 一 步 设 置 分 隔 符 、 首 
行 等 。 


另外 ,foreign 包 中 还 有 一 个 函数 write.dta0, 其 可 生成 Stata 二 进 制 格式 的 文件 ; 以 及 write.dbf0 
可 生成 DBF 文件 ， 它 是 dBase 和 FoxPro 所 使 用 的 数据 库 格 式 。 只 是 这 两 个 函数 并 不 常用 。 


i 


数据 预 处 理 


数据 是 分 析 的 核心 ， 在 做 数据 分 析 之 前 ， 首 先 要 对 数据 进行 一 定 的 处 理 。 数 据 预 处 理 指 当 录 
入 或 读 取 数据 后 ,对 数据 进行 必要 的 清理 ,包括 查 错 纠 错 、 异 常 观 察 值 和 无 效 样本 的 处 理 、 转 换 、 
填补 缺失 值 等 ， 这 是 数据 分 析 的 重要 前 提 ， 是 描述 统计 、 定 性 定量 分 析 的 基础 。 它 的 主要 目的 就 
是 为 后 续 的 分 析 工 作 提供 经 过 清理 、 质 量 较 好 的 数据 集 。 


本 章 将 讲述 在 R 软件 中 如 何 对 原始 数据 进行 预 处 理 ， 主 要 内 容 包 括 数据 处 理 的 基本 函数 、 数 
据 整 理 、 数 据 修改 与 选择 、 缺 失 值 处 理 等 。 


3.1 基本 函数 


并 非 所 有 的 数据 都 是 可 以 直接 使 用 的 ， 现 实 中 收集 的 数据 往往 数量 较 大 ， 信 息 又 多 又 繁杂 ， 
因此 很 多 数据 都 是 参差 不 齐 的 ， 存 在 层次 不 清 、 数 量 级 不 同等 问题 ， 直 接 使 用 会 给 后 续 的 数据 分 
析 和 挖掘 带 来 许多 不 便 之 处 ， 甚 至 导致 错误 的 结论 。 


例如 保险 公司 的 保费 收入 和 赔付 支出 数据 ， 由 于 每 季度 都 收集 ， 常 常 出 现 日 期 格式 不 统一 的 
情况 ， 而 且 数据 缺失 的 情况 也 很 常见 。 如 果 把 数据 分 析 过 程 比喻 为 下 厨 做 菜 ， 那 么 获取 食材 等 同 
于 读 取 数 据 ， 而 洗 菜 、 择 菜 等 准备 工作 就 类 似 于 我 们 所 说 的 数据 预 处理 。 


就 像 数据 预 处 理 是 分 析 的 预备 工作 一 样 ， 了 解 基 本 函数 也 是 一 个 准备 工作 。 预 处 理 还 是 一 个 
比较 烦琐 的 过 程 ， 首 先 应 该 了 解 用 了 尺 中 的 哪些 工具 、 函 数 可 以 帮助 完成 这 一 工作 。 导 入 大 规模 的 
数据 后 ， 为 了 首先 对 数据 集 有 一 个 大 体 的 了 解 ， 通 常 需要 从 中 提炼 一 些 关键 内 容 ， 例 如 均值 、 极 
差 、 分 位 数 等 。 


R 中 用 来 处 理 数据 的 函数 非常 非常 多 ,而 且 使 用 起 来 非常 简单 。 下 面 列 出 使 用 最 频繁 的 函数 ， 
如 表 3.1 所 示 。 
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表 3.1 基本 数学 函数 








返回 x 中 最 大 /最 小 元 素 的 下 标 
返回 最 值 ， 相 当 于 c(min(x) , max(x)) 
x 的 5 个 分 位 数 〈0%、25%、50%、75%、100%) 

返回 x 的 5 个 分 位 数 和 均值 

var(x) x 中 元 素 的 方差 (总 体 方差 分母 用 n-1 计算 ); 车 x 是 一 个 矩阵 或 数据 框 ， 
pe | 则 计算 协 方差 阵 ， 这 时 等 同 于 cov(x) 
x 和 y 的 协 方差 ， 若 是 矩阵 或 数据 框 ， 则 计算 x 和 y 对 应 列 的 协 方差 

x 是 一 个 矩阵 或 数据 框 ， 计 算 相 关系 数 矩 阵 ;， 若 x 是 一 个 向 量 ， 则 结果 为 1 


x 和 y 的 线性 相关 系数 ， 若 对 象 为 矩阵 或 数据 框 ， 则 计算 相关 系数 矩阵 
以 上 是 最 常用 于 统计 描述 的 函数 ， 比 较 基 本 ， 而 表 3.2 中 的 函数 可 以 返回 更 为 复杂 的 结果 ， 


































提炼 数据 中 的 更 多 信息 。 


表 3.2 高 级 数学 函数 
西数 
pmin(x,y,...) / pmax(X,y,...) 返回 一 个 向 量 ， 其 第 i 个 元 素 是 x[i],y[i],…. 的 最 小 值 /最 大 值 
cumsum(x) 返回 一 个 向 量 ， 其 第 i 个 元 素 是 x[1],…x[i] 的 求 和 
i 
ee 
mad(x) 离 差 
round(x,n) 对 x 中 的 元 素 四 舍 五 入 ， 至 小 数 点 后 第 nn 位 
eg 
rank(x) x 中 元 素 的 秩 
rev(x) 对 x 中 的 元 素 取 逆序 
x 是 一 个 和 矩阵， 中 心 化 和 标准 化 数据 
X 是 向 量 或 数据 框 ， 对 重复 的 元 素 只 取 一 个 
忽略 有 缺失 值 NA 的 数据 (x 是 矩阵 或 数据 框 ， 则 忽略 行 ) 

i 
table(x) 

































scale(x) 









unique(x) 






na.omit(x) 
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续 表 



















求人 度 《属于 程序 包 timeDate》 
求 几 度 《属于 各 序 包 ineDat 


emm(x, order) 


大 阶 原点 矩 〈 属 于 程序 包 Actuar) 


接 下 来 以 上 一 章 读 取 的 salary 数据 集 为 例 ， 应 用 上 面 的 函数 对 数据 做 一 些 基 本 处 理 ， 这 里 只 
为 说 明 函 数 的 使 用 方法 ， 更 加 详细 的 描述 性 统计 将 在 第 5 章 具 体 介 绍 。 


> data=read.table("d:/data/salary.txt",header=T) 
> _ attach (data) 


> mean (Salary) # 求 均值 
[1] 45.90667 


> length (Salary) # 数 据 长 度 ( 个 数 ) 
[i 5 
> cumsum (Salary) 间 累 积 工资 


[I] 49.0 54.3 116.2 157.6 218.0 264.2 329.4 400.5 406.2 472.0 517.9 534.0 586.1 
[14] 620.6 688.6 


可 以 看 到 ， 工 资 数 据 一 共有 15 个 记录 ， 其 均值 为 45.9，cumsum0 站 可 以 由 左 向 右 计算 累积 工 
资 额 。 


但 是 像 这 种 数据 几乎 都 不 相等 的 情况 ， 尤 其 当 数 据 量 较 多 时 ， 要 想 统计 数值 大 小 等 基本 信息 
比较 困难 ， 所 以 需要 对 其 分 组 ， 从 而 大 致 描述 数据 信息 。 需 要 利用 函数 cut0， 它 可 以 把 数值 型 对 
象 分 区 间 转 换 为 因子 ， 调 用 格式 如 下 : 


cut (x, breaks, labels = NULL,include.lowest = FALSE, right = TRUE...) 


其 中 ，x 为 被 转换 的 对 象 ， 是 一 个 数值 向 量 ; breaks 可 以 是 单个 数字 ， 指 明 x 要 分 为 几 组 ， 
也 可 以 是 一 个 向 量 ， 可 自行 设置 分 组 的 切 点 ; labels 给 每 个 组 添加 标签 ; include.lowest 是 尿 辑 值 ， 
指明 区 间 的 开 闭 情况 ， 即 区 间 端 点 值 是 否 包 括 在 内 ; right 也 是 逻辑 值 ， 默 认 区 间 为 左 开 右 闭 。 

例如 将 salary 划分 为 3 组 ， 用 函数 table0 统 计数 据 信息 ， 若 没有 设置 标签 ， 将 直接 显示 各 区 
间 的 端点 数值 : 


> salaryl=cut (Salary, 3) 
> table (salaryl1) 


salaryl 
(S5235271.21 292 (92774224 
3 5 时 
> salaryl=cut (Salary, 3, labels=c ("low", "medium", "high")) # 给 每 个 区 间 设 置 标签 


> table (salaryl1) 
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salaryl 
low medium high 
名 5 


落 入 低 、 中 、 高 三 个 区 间 的 工资 个 数 分 别 是 7、5、3， 由 此 我 们 大 致 对 数值 的 分 布 有 了 一 个 
了 解 。 可 见 ， 当 breaks 为 单个 数值 时 ， 分 组 后 区 间 的 长 度 都 是 相等 的 ， 如 果 要 自 定义 区 间 长 度 ， 
则 对 breaks 赋值 一 个 数值 向 量 ， 这 样 就 可 以 清晰 地 看 到 落 入 不 同 工 资 段 内 的 数据 个 数 了 。 


> breakpoints=c (0,30,40,50,60,70) 
> salary2=cut (Salary,breaks=breakpoints) 
> table (salary2) 


salary2 
(0,30] (30,40] (40,50] (50,60] (60,70) 
3 1 4 上 3 


当然 对 于 数据 的 直观 分 析 ， 画 图 是 最 便捷 的 方式 ，R 提供 的 绘图 函数 有 许多 ， 下 一 章 将 详细 
介绍 。 这 里 把 常用 的 几 个 汇总 在 一 个 函数 中 ， 直 接 调用 它 ， 就 可 以 对 数据 绘制 出 多 个 图 形 来 ， 由 
此 可 以 更 直观 地 观察 数据 分 布 信息 ， 如 图 3.1 所 示 。 
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图 3.1 salary 数据 的 图 形 化 显示 


> pic=function (x){ 

+ par (mfrow=c(2,2)) # 绘 图 区 域 分 割 为 四 部 分 
+ hist(x) # 直 方 图 

+ dotchart (x) # 点 图 

+ boxplot (x) # 箱 线 图 

+ qqnorm(x);qqline (x) # 正 态 概率 图 
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+ par (mfrow=c (1,1)) # 恢 复 单 图 区 域 
a 
> pic(Salary) # 调 用 编写 好 的 函数 pic () 


3.2 ”数据 修改 


首先 ， 进 入 R 中 的 原始 数据 可 能 是 五 花 八 门 的 ， 就 像 插花 一 样 需 要 修剪 枝 醒 才 能 变 得 完美 ， 
数据 也 要 经 过 整理 才 适 用 于 各 个 统计 分 析 方 法 。 


数据 修改 和 整理 工作 ， 有 时 被 形容 为 对 数据 的 “整形 ” 这 不 仅 是 为 了 改善 数据 的 外 观 ， 也 
是 统计 分 析 和 作 图 前 的 必要 步骤 。 


3.2.1 修改 数据 标签 


数据 修改 主要 是 细节 上 的 工作 ， 这 里 使 用 上 一 章 的 文本 文件 salary， 读 取 后 存 入 数据 集 data， 
下 面 说 明 如 何在 R 中 修改 已 读 入 的 数据 。 


首先 数据 的 标签 是 可 以 改变 的 ， 只 需要 使 用 上 面 提 到 的 names 函数 就 可 以 实现 ， 如 以 下 指令 
将 data 中 原来 的 标签 都 变 成 大 写 : 


>data=read.table("d:/data/salary.txt",header=T, stringsAsFactors =F) 
>names (data)=c ("CITY", "WORK", "PRICE", "SALARY") 

>names (data) 

[CE "WORK" "PRICE™ “SALARY" 


3.2.2 ”行列 删除 


R 主要 使 用 [] 来 提取 数据 的 子 集 ， 下 文 我 们 将 具体 讲 到 ， 这 里 同样 使 用 中 括号 来 删除 数据 的 
某 行 或 某 列 ， 只 需 在 行 号 或 列 号 的 前 面 加 负 号 “-” 即 可 ， 例 如 data[-1,-3] 表 示 删 除数 据 集 data 的 
第 一 行 和 第 三 列 ( 即 PRICE ): 


> data2=data[-1,-3] 
> data2 
CITY WORK SALARY 


2 Bombay 2052 5.3 

3 Chicago 1924 “61.9 

4 Dublin 1759 41.4 

5 Frankfurt 1650 60.4 

6 London 1737 46.2 
3.3 ”缺失 值 处 理 


与 数据 清洗 相 比 ， 以 上 的 修改 只 是 “小 巫 见 大 巫 ”。 在 收集 的 真实 数据 中 ， 数 据 缺 失 是 非常 
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常见 的 现象 ， 而 且 影响 重大 ， 缺 失 值 的 处 理 可 以 说 是 数据 预 处 理 的 重 中 之 重 。 
一 般 而 言 ， 数 据 缺 失主 要 是 由 以 下 几 个 原因 造成 的 : 


。 在 数据 收集 阶段 ， 某 些 记 录 或 字段 丢失 ; 
。 ”调查 访问 中 ， 被 访 者 拒绝 透露 相关 信息 ， 导 致 数据 的 无 效 性 ; 
。 ”由 于 机 械 原因 ， 导 致 数据 存储 的 失败 。 


基本 上 ， 缺 失 数据 处 理 的 流程 是 ， 首 先 判断 其 模式 是 否 随 机 ， 然 后 找 出 缺失 的 原因 ， 最 后 对 
缺失 值 进行 处 理 。 


3.3.1 判断 缺失 数据 


R 中 缺失 值 以 NA 表示 ， 判 断 数据 是 否 存在 缺失 值 的 函数 有 两 个 ， 最 基本 的 函数 是 is.na()， 
它 可 以 应 用 于 向 量 、 数 据 框 等 多 种 对 象 ， 返 回 逻 辑 值 。 


还 以 上 面 数 据 为 例 ， 先 将 data 文件 中 工资 指数 大 于 65 的 值 蔡 换 为 缺失 值 : 
>attach (data) 


The following object is masked from data (position 3): 
CITY, PRICE, SALARY, WORK 


>data$SALARY=replace (SALARY, SALARY>65, NA) 
> is.na (SALARY) 


[1] FALSE FALSE FALSE FALSE FALSE FALSE TRUE TRUE FALSE TRUE FALSE FALSE FALSE 
[14] FALSE TRUE 


> suml(is.na (SALARY)) 
[了 末 没 


is.na() 作 用 于 向 量 SALARY 后 ， 如 果 对 应 的 数值 为 缺失 值 则 返回 TRUE， 和 否则 为 FALSE， 使 
用 求 和 函数 sum() 可 以 知道 一 共有 4 个 缺失 值 。 


男 一 个 判断 缺失 值 的 函数 是 complete.cases()， 它 同样 返回 逻辑 值 向 量 , 但 值 与 is.na() 的 相反 : 
缺失 值 为 FALSE， 正 常数 据 为 TRUE， 利 用 它 来 选取 无 缺失 数据 的 行 非常 方便 。 
> complete.cases (data$SALARY) 


[1] TRUE TRUE TRUE TRUE TRUE TRUE FALSE FALSE TRUE FALSE TRUE TRUE TRUE 
[14] TRUE FALSE 


3.3.2 ”判断 缺失 模式 


存在 缺失 数据 时 ， 需 要 进一步 判断 数据 的 缺失 模式 ， 判 断 是 否 是 随机 的 ， 然 后 才能 确定 处 理 
的 方法 。 
在 处 理 缺 失 数据 之 前 ， 首 先 来 了 解 下 程序 包 mice， 它 的 全 称 为 Multivariate Imputation by 


Chained Equations， 即 利用 链 式 方程 进行 多 元 插 补 ， 可 以 处 理 混合 变量 类 型 的 数据 缺失 ， 自 动产 
生 填 补 变量 的 预测 变量 ， 是 处 理 缺 失 值 的 重要 工具 。 
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mice 包 中 的 函数 md.pattern() 用 于 显示 缺失 数据 的 模式 , 其 只 有 一 个 参数 , 就 是 要 判断 的 矩阵 
或 数据 框 。 


为 了 说 明 更 复杂 的 情况 ， 我 们 将 数据 集中 变量 PRICE 大 于 80 的 值 也 替换 为 缺失 值 。 


> data$PRICE=replace (PRICE, PRICE>80, NA) 
>install .packages ("mice") 
>library (mice) 
> md.pattern (data) 
CITY WORK SALARY PRICE 


8 1 1 1 i 0 
3 1 1 + 0 1 
公 1 1 0 业 再 
2 1 0 0 2 

0 0 4 5 9 


输出 结果 中 的 “1” 表 示 没 有 缺失 数据 ,“0” 表 示 存 在 缺失 数据 。 第 1 列 第 1 行 的 “8” 表 示 
有 8 个 样本 是 完整 的 ， 下 面 的 “3” 表 示 有 3 个 样本 缺少 了 SALARY 这 一 变量 的 值 ， 第 1 列 最 后 
一 个 数字 “2” 表 示 有 两 条 记录 在 SALARY 和 PRICE 上 都 有 缺失 。 最 后 一 行 表示 各 个 变量 缺失 的 
样本 数 合计 。 

md.pattern() 是 从 数值 的 角度 判断 缺失 模式 ， 另 一 种 比较 直观 的 方法 是 以 图 形 方式 描述 缺失 数 
据 ， 需 要 用 到 程序 包 VIM 的 aggr0) 函 数 。 


程序 包 VIM 提供 了 在 R 中 探索 数据 缺失 情况 的 新 工具 ， 实 现 缺失 模式 的 可 视 化 ， 其 可 以 帮 
助 我 们 了 解 缺 失 值 或 数据 错误 产生 的 机 制 ， 这 对 选择 处 理 方法 十 分 重要 。 
判断 缺失 模式 使 用 其 中 的 函数 aggr0， 它 能 对 缺失 数据 进行 整合 ， 函 数 结构 为 : 


aggr (x, delimiter = NULL, plot = TRUE， ...) 


x 表示 一 个 向 量 、 和 矩阵 或 数据 框 ; delimiter 用 于 区 分 插 补 变量 ， 如 果 给 出 相应 的 值 ， 其 被 用 
来 说 明 变 量 的 值 已 被 插 补 ， 但 在 判断 缺失 模式 时 ， 这 一 参数 默认 是 忽略 的 ; plot 是 逻辑 值 ， 指 明 
是 否 绘制 图 形 ， 默 认为 TRUE， 相 当 于 它 内 与 了 一 个 绘图 函数 。 


>install .packages ("VIM") 
>library (VIM) 
>aggr (data) 


结果 如 图 3.2 所 示 ， 图 中 直接 生成 两 个 图 像 。 
第 一 个 图 由 小 条 形 的 长 度 显 示 各 变量 缺失 数据 比例 ， 由 于 变量 PRICE 和 SALARY 都 包含 缺 


失 ， 所 以 图 中 都 对 应 了 深 色 条 形 ; 而 15 条 记录 中 有 4 个 缺失 SALARY， 缺 失 比例 超过 25%， 
此 SALARY 对 应 的 条 形 长 度 大 于 0.25。 


第 二 个 图 显示 了 综合 的 缺失 模式 ， 可 以 与 md.pattern() 生 成 的 结果 对 照 观察 ， 其 中 浅 色 方 框 表 
示 完 整数 据 ， 深 色 框 表示 缺失 值 。 底 部 的 颜色 框 高 度 反 映 了 相应 组 合 的 频率 。 
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图 3.2 数据 缺失 模式 的 绘图 


如 数据 data 中 有 8 条 完整 记录 ， 反 映 在 第 一 行 全 部 为 浅 色 ， 底 部 的 蓝 色 长 方形 宽 为 8; 有 2 
条 记录 缺失 PRICE 和 SALARY， 反 映 在 第 四 行 ，PRICE 和 SALARY 对 应 的 方 框 都 是 深 色 ， 并 且 
底部 的 深 色 长 方形 宽 为 2。 


3.3.3 ”处 理 缺 失 数据 


在 有 缺失 数据 的 情况 下 进行 的 数据 分 析 是 不 可 靠 的 ， 并 且 有 些 统计 方法 对 数据 质量 要 求 很 
高 ， 不 允许 数据 有 遗漏 ， 这 就 要 求 我 们 在 数据 预 处 理 过 程 中 考虑 缺失 值 的 问题 。 处 理 缺 失 数 据 主 
要 有 三 种 方法 。 

(1) 删除 缺失 样本 


过 滤 掉 缺失 样本 是 最 简单 的 方式 ， 其 前 提 是 缺失 数据 的 比例 较 少 ， 而 且 缺 失 数据 是 随机 出 现 
的 ， 这 样 删除 缺失 数据 后 对 分 析 结 果 影 响 不 大 。 


R 可 以 使 用 complete.cases() 指 令 选取 完整 的 记录 ， 有 缺失 值 的 行 则 删 去 不 要 。 


利用 它 来 选取 无 缺失 数据 的 行 非常 方便 。 从 下 面 的 例子 可 以 看 出 ，data 数据 原来 有 15 行 ， 去 
挤 4 个 SALARY 缺失 的 记录 后 ， 剩 下 11 行 。 


> datal=data[complete.cases (data$SALARY),] 
> dim(datal) 
[二 E14 


通过 函数 is.na() 也 可 以 得 到 同样 结果 : 
> data2=datal[!is.na (SALARY),] 

> dim(data2) 

BE 1a 
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对 于 有 多 个 变量 缺失 的 数据 , 如 果 想 直接 删除 所 有 的 缺失 值 , 可 以 通过 na.omit(0) 函 数 来 完成 ， 
这 样 就 删 去 了 SALARY 和 PRICE 缺失 的 所 有 记录 ， 剩 下 8 行 完整 数据 。 

> data3=na.omit (data) 

> dim(data3) 

[1] 8 4 

另外 , 对 于 有 缺失 值 的 数据 , 一 些 函数 在 计算 时 可 以 通过 参数 设置 来 忽略 缺失 值 , 例如 mean、 
var、sum、min、max 等 ， 当 na.rm=TRUE 时 忽略 缺失 值 。 


(2) 替换 缺失 值 
缺失 值 不 一 定 要 完全 删除 , 最 常见 的 是 通过 赋值 来 解决 , 用 变量 均值 或 中 位 数 来 代替 缺失 值 ， 


这 样 做 的 优点 在 于 不 会 减少 样本 信息 ， 处 理 起 来 简单 ， 但 缺点 在 于 当 缺 失 数据 不 是 随机 出 现时 会 
产生 偏差 。 


例如 上 面 缺失 工资 指数 的 数据 ， 可 以 使 用 已 有 数据 的 平均 值 来 替代 。 通 过 函数 is.na0 来 查找 
缺失 值 的 位 置 。 

>data[is.na(data) ]=mean (SALARY[!is.na(SALARY)])  #mean 函数 是 对 非 NA 值 的 SALARY 数据 求 

平均 

读 入 数据 时 ， 如 使 用 read.tableD0， 也 可 以 直接 通过 na.strings- 参 数 来 指定 代表 缺失 值 的 字符 串 。 


(3) 多 重 插 补 法 

多 重 插 补 (Multiple Imputation〉 是 用 于 填补 复杂 数据 缺失 值 的 一 种 方法 ， 该 方法 通过 变量 间 
关系 来 预测 缺失 数据 ， 利 用 蒙特 卡 罗 随 机 模拟 方法 生成 多 个 完整 数据 集 ， 再 对 这 些 数据 集 分 别 进 
行 分 析 ， 最 后 对 这 些 分 析 结 果 进 行 汇总 处 理 。 


其 基本 思想 是 对 每 一 个 缺失 值 进行 插 补 ， 重 复 m 次 后 得 到 m 个 插 补 值 ， 再 利用 m 个 插 补 值 
估计 缺失 值 。 比 较 有 代表 性 的 插 补 算法 有 JM 模型 和 FSC (Fully Approaches Specification)。 


JM 模型 对 原始 数据 的 要 求 很 高 , 需要 数据 服从 多 元 正 态 分 布 。 R 中 可 以 处 理 多 元 正 态 数据 的 
缺失 值 的 程序 包 有 : mvnmle 提供 了 最 大 似 然 估计 方法 (ML Estimation)，norm 提供 了 期 望 最 大 化 
算法 (EM algorithm )，monomvn 可 以 估计 单调 多 元 正 态 数据 的 缺失 值 。 


这 里 重点 介绍 FSC 方法 ,因为 它 在 没有 合适 的 多 维 分 布 时 也 可 以 使 用 , FSC 是 基于 链 式 方程 
的 插 补 方法 ， 因 此 也 称 为 MICE (Multiple Imputation by Chained Equations)。 它 与 其 他 多 重 插 补 算 
法 的 本 质 区 别 是 ， 它 在 进行 插 补 时 不 必 考 虑 被 插 补 变量 和 协 变 量 的 联合 分 布 ， 而 是 利用 单个 变量 
的 条 件 分 布 逐一 进行 插 补 。 


在 R 语言 中 通过 程序 包 mice 中 的 函数 miceO 可 以 实现 该 方法 ， 它 随机 模拟 多 个 完整 数据 集 
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并 存 入 imp， 再 对 imp 进行 线性 回归 ， 最 后 用 pool 函数 对 回归 结果 进行 汇总 。 


汇总 结果 和 普通 回归 相似 ，nmis 表示 了 变量 中 的 缺失 数据 个 数 ，fmi 表示 由 缺失 数据 贡献 的 
变异 。 


为 简化 计算 ， 假 设 数据 集中 只 有 变量 SALARY 含 缺 失 值 ， 重 新 读 入 并 替换 工资 指数 大 于 65 
的 数值 为 NA: 


> data=read.table("d:/data/salary.txt",header=T) 
> names (data)=c ("CITY", "WORK", "PRICE", "SALARY") 
> attach (data) 

> data$SALARY=replace (SALARY, SALARY>65, NA) 


接 下 来 进行 随机 模拟 ， 再 做 多 元 回归 : 


> imp=mice (data, seed=1) # 随 机 模拟 数据 
> fit=with (imp, LIm(SRALARY~WORK+PRICE) ) # 线 性 回归 
> pooled=pool (fit) # 回 归结 果 
> options (digits=3) # 显 示 小 数 点 后 三 位 
> summary (pooled) 

est se 七 df Pr(>|t|) LIo 95 hi 95 nmis fmi lambda 
(Intercept) 96.6177 39.2356 2.46 9.53 0.0346 8.6046 184.6307 NA 0.220 0.0723 
WORK -0.0537 ,070187" =2.8719, 71 0a0173,, =0.0956 .=-0.0418. 0 0.207 0.0584 
PRICE 0.6048, 0.1676 ,3s61 . ,9.07 0Q0..0056,, 0,2260 90.9835, ‘0 0.254 .0.1053 


下 面 手动 将 预测 的 结果 计算 出 来 ， 并 替换 到 data 数据 集中 。 通 过 多 重 插 补 法 的 回归 模拟 ， 数 
据 集 就 补 全 了 。 


>data.pre=data[is.na(data$SALARY),] [,2:3] # 选 取 缺 失 样本 的 WORK 和 PRICE 值 
>data.pre=as.matrix(cbind(rep(1,4),data.pre)) 
> q=pooled$qbar # 通 过 拟 合 回 归 预 测 SALARY 
> pre=data.pre%*%q;pre # 预 测 结果 

[,1] 
7 33.8 
8 44.7 
10 42.7 
15 65.2 
>index=is.na (data$SALARY) 
>data$SALARY[index]=pre # 替 换 缺 失 值 
>data[lindex,] 

CITY WORK PRICE SALARY 

3 LosAngeles 2068 79.8 33.8 
8 Luxembourg T7680 73 44.7 
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10 NewYork 1942 8353 42 .7 
15 Tokyo 1880 LL5:.Q 65-2 


除了 mice, 目前 许多 程序 包 都 提供 了 多 重 估算 函数 ， 因为 不 同 数据 类 型 要 求 的 估计 方法 也 
不 相同 。 


例如 程序 包 cat 可 以 做 分 类 数据 的 多 重 估算 ，mix 适用 于 分 类 变量 和 连续 变量 的 混合 型 数据 ， 
pan 提供 了 面板 数据 的 多 重 估算 等 。 


3.4 数据 整理 


数据 被 清理 干净 后 ， 可 能 还 需要 经 过 一 定 的 形式 变化 ， 才 能 用 于 数据 分 析 和 绘图 。 这 里 主要 
指数 据 集 的 合并 与 拆 分 ， 例 如 将 一 个 大 数据 集 按 照 某 个 特定 的 条 件 拆 分 成 几 个 小 的 数据 集 ， 或 将 
原始 数据 集中 的 某 些 变量 挑 出 或 除去 , 重新 放 入 一 个 新 的 数据 集中 , 使 得 数据 集 的 内 容 变 得 简化 ， 
便于 进行 统计 分 析 。 


3.4.1 数据 合并 
在 有 语言 中 ， 数 据 合 并 有 多 种 形式 ， 这 里 介绍 主要 的 三 类 函数 。 


(1) 函数 cbind()、rbind() 


在 R 中 数据 的 合并 由 cbind0 和 rbind0 这 两 个 基本 指令 实现 ,可 以 在 向 量 、 和 矩阵 (matrix)、 数 
据 框 (data.frame〉 和 列表 上 使 用 。cbind0 按 列 的 方式 将 对 象 连接 到 一 起 ，rbind0 按 照 行将 对 象 连 
接 在 一 起 。 


在 下 面 的 例子 中 ， 尤 其 要 注意 的 一 点 是 ， 列 表 可 以 存储 字符 型 变量 ， 合 并 时 向 量 a 中 既 含 有 
字符 又 含有 数字 ， 读 入 外 部 文件 时 应 该 将 stringsAsFactors 设置 为 F， 意 思 是 读 入 数据 时 不 要 自动 
将 字符 串 转换 为 因子 ， 若 忽略 这 一 设置 ， 合 并 时 将 会 报错 。 

> a=c ("Hongkong",1910,75.0,41.8) 

> datal=rbind (data,a) 

原来 的 数据 集 data 有 15 条 记录 ， 使 用 rbind 指令 后 ， 就 增加 了 第 16 行 。 


>datal [14:16,] 

City Work Price Salary 
14 Taipei 2145 84.3 34.5 
15 Tokyo 1880 115 68 
16 Hongkong 1910 75 41.8 


(2) 构造 data.frame 


对 数据 “整容 ”最 简单 的 思路 是 把 数据 向 量化 ， 再 按 要 求 用 癌 量 构建 其 他 类 型 的 对 象 。 一 些 
结构 相似 的 对 象 ， 如 向 量 〈 数 值 型 、 字 符 型 、 逻 辑 型 )、 因 子 、 数 值 矩 阵 、 列 表 或 其 他 数据 框 等 ， 
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可 以 被 合并 为 一 个 数据 框 。 


例如 ， 将 3 个 向 量 合并 为 一 个 数据 框 : 


> weight=c (150,135,210,140) # 数 值 型 向 量 
>height=c (65,61,70,65) 

> gender=c ("EF","F", "M", "F") # 字 符 型 向 量 
>stu=data.frame (weight, height,gender) 


合并 时 ,变量 名 称 就 自动 变 成 了 新 数据 框 的 列 名 , 也 可 以 用 names0) 重 新 给 其 赋值 ,row.names() 
用 于 对 数据 框 的 行进 行 命名 。 


>row.names (stu)=c ("Alice", "Bob","Cal", "David") 


从 数据 框 内 取 行 或 列 有 多 种 方式 ， 既 可 以 通过 行 号 、 列 号 来 获取 ， 也 可 以 通过 行 名 、 列 名 来 
获取 ， 尤 其 是 列 的 获取 方式 非常 多 样 ， 下 面 列 出 了 4 种 : 

>stul[, "weight"] 

[1] 150 135 210 140 

>stu$Weight #"$" 用 于 取 列 

[JJ L506 135 .210 140 

>stu[["weight"]] # 双 括号 + 名 称 

t1] 150 135 210 140 

>stu[[1]] # 双 括号 + 下 标 ， 用 于 数据 框 和 列表 数据 的 获取 

[1] 150 :35 210 140 

>stu["Cal",] # 获 取 行 

weight height gender 

Cal 210 70 M 

>stull:Zr1:21 

weight height 

Alice 150 65 

Bob 35 61 


(3) 函数 merge() 
在 R 中 合并 两 个 数据 集 可 以 通过 专门 的 函数 merge() 来 实现 。 merge 通过 相同 的 列 或 行 名 来 识 
别 ， 合 并 两 个 数据 框 或 列表 ， 其 调用 格式 如 下 ， 参 数 如 表 3.3 所 示 。 


merge (x, y, by = intersect (names (x), names(y)), by.x = by, by.y = by, all = FALSE, 
all.x=all, all.y=all, sort = TRUE, suffixes =c(".x",".y"), incomparables = NULL, ...) 


表 3.3 merge() 的 参数 设置 
要 合并 的 数据 集 


指定 合并 的 依据 (相同 的 行 或 列 ) 


分 别 为 第 一 个 数据 框 和 第 二 个 数据 框 要 连接 的 列 名 
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续 表 


all, all.x, all.y 届 辑 值 ， 默 认为 FALSE。 以 all.x=TRUE 为 例 ， 表 示 当 x 中 的 行 没有 相应 的 y 进行 匹 
配 时 ， 用 NA 填充 ， 若 为 FALSE， 那 么 仅 输 出 x 和 y 中 都 包含 的 行 

假设 建立 另 一 个 数据 集 index， 其 包含 各 个 城市 名 称 及 相应 的 序号 , 我们 将 要 把 index 合并 到 
之 前 的 data 数据 集中 ， 以 相同 的 变量 City 为 合并 的 依据 ， 合 并 后 将 在 data 数据 集 的 基础 上 增加 
新 的 一 列 Index。 
>index=list ("City"=data$City,"Index"=1:15) 
>index 
$City 


[1] Amsterdam Bombay Chicago Dublin Frankfurt London LosAngeles 
Luxembourg MexicoCity 









[10] NewYork Paris Singpore Sydney Taipei Tokyo 


$Index 

{2 下 0 1 2% 13 14 45 
>data.index=merge (data, index, by="City") 
>data.index 


City Work Price Salary Index 
1 Amsterdam 1714 65.6 49.0 下 
2 Bombay 2052 30:3 5.3 2 
3 Chicago 1924 T7393 61.9 3 
4 Dublin 1759 76.0 41.4 4 
5 Frankfurt 1650 74.5 60.4 5 


3.4.2 ”选取 数据 的 子 集 


有 时 数据 要 合并 ， 有 时 数据 却 要 拆 分 ， 尤 其 当 数 据 量 很 大 的 时 候 ， 可 能 只 需要 提出 其 中 的 一 
部 分 做 分 析 。 在 R 中 ， 选 取 数 据 子 集 用 中 括号 []。 


下 面 以 data 数据 集 为 例 来 说 明 。 如 果 想 选取 工资 指数 大 于 65 的 城市 数据 ， 就 可 以 用 如 下 指 
令 实现 。 

需要 注意 的 是 ， 中 括号 内 逗号 的 前 面 表示 行 指标 ， 即 选取 适合 的 行 ， 后 面 是 列 指 标 ， 为 空 表 
示 所 有 的 列 都 选取 。 


>dataldata$Salary>65,] 


City Work Price Salary 
字 LosAngeles 2068 79.8 65,.2 
8 Luxembourg 1768 Wa Nk 
10 NewYork 1942 83.3 65.8 


45 Tokyo 1880 115.0 68.0 
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选取 第 二 行 和 第 四 行 : 


>data[lc(2,4),] 

City Work Price Salary 
2 Bombay 2052 30.3 a3 
4 Dublin 1759 76.0 41.4 


选取 价格 指数 等 于 65.6 的 行 ， 注 意 要 用 双 等 号 一 。 
R 中 用 于 表示 数量 关系 的 符号 还 包括 : 不 等 于 !=、 小 于 <、 大 于 等 于 >= 和 小 于 等 于 <=。 


>data[ldata$Price==65.6,] 
City Work Price Salary 
1 Amsterdam 1714 65.6 49 


3.4.3 ”数据 排序 


R 中 的 排序 函数 sortO 只 能 对 向 量 进行 简单 的 排序 ， 对 含有 多 变量 的 数据 集 ， 如 对 data 按照 
工资 指数 排序 时 ， 需 要 用 order 指令 来 完成 ， 其 调用 格式 如 下 : 


order(..., na.last = TRUE, decreasing = FALSE) 


其 中 ，na.last 控制 对 缺失 值 NA 的 处 理 ， 默 认为 FALSE， 即 排序 时 将 缺失 值 放 在 最 前 ， 如 果 
为 TRUE， 则 排序 时 将 缺失 值 放 在 最 后 ;， 如果 na.last=NA， 将 删除 缺失 值 。decreasing 用 来 设置 升 
序 或 降序 ， 默 认为 FALSE， 也 就 是 由 小 至 大 排列 。 


>order.salary=order (data$Salary) 
>order.salary 
fl B12 14 和 人 6 F135 3 ul 8 


函数 sort.list 与 order 的 作用 相同 : 


>sort.list (data$Salary) 
tl 这 和 2 二 和 二 


输出 的 结果 说 明 第 2 行 的 工资 指数 最 小 ， 紧 接着 是 第 9 行 、 第 12 行 …… 。 使 用 中 括号 选取 
数据 ， 就 能 完成 排序 。 
>data[order.salary,] 


City Work Price Salary 
2 Bombay 2052 33033 5a3 


9 MexicoCity 1944 49.8 村. 
12 Singpore 2042 64.4 16.1 
14 Taipei 2145 84.3 34.5 
4 Dublin 1759 76.0 41.4 
1 Paris 1744 81.6 45.9 
6 London 1737 84.2 46.2 
1 Amsterdam 1714 65.6 49.0 
13 Sydney 1668 70.8 52.1 
5 Frankfurt 1650 74.5 60.4 
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3 Chicago 1924 73.9 61.9 
又 LosAngeles 2068 79.8 65.2 
10 NewYork 1942 83.3 65.8 
15 Tokyo 1880 TIS.0 “68.0 


8 Luxembourg lL768 71.1, 71..1 


指令 order 返回 向 量 排 序 后 各 数字 的 原始 位 置 ， 与 之 非常 相关 的 指令 是 秩 (rank)， 它 返回 每 
个 数字 在 整个 向 量 中 的 秩 ， 可 以 简单 地 理解 为 各 个 数字 的 大 小 顺序 。 例 如 : 


>rank (data$Salary) 
1 名 二 0 7 12 15 2 13 6 3 3 本 


说 明 第 一 行 的 工资 指数 排 在 第 8， 第 二 行 的 工资 指数 最 小 。 


3.5 ”长 宽 格式 的 转换 


有 时 为 了 计算 方便 ， 需 要 将 原始 数据 的 行列 进行 调换 ， 这 就 是 转 置 功能 。 


这 在 R 中 实现 起 来 也 非常 简单 ， 只 需要 一 个 指令 t0 就 可 以 了 ， 原 来 的 列 变量 CITY、WORK 
等 在 转 置 后 就 变 成 了 行 向 量 。 
>t (data) 
[,1] [,2] [,3] [,4] 7 
CITY "Amsterdam" "Bombay" "Chicago" "Dublin" "Frankfurt"*: 


WORK 二 nw2052"™ "1924" "1759" w]650 ……… 
PRICE " 65.6" " 30.3"” " 73.9" nm T6.0 "mm 74.5" 和 e000 
SALARY "49.0" nn 5.3" n61 .9" n41 .4" Wm60 .A 


做 转 置 很 简单 ， 这 里 也 只 是 抛砖引玉 ， 接 下 来 要 介绍 的 几 个 函数 在 数据 汇总 中 非常 好 用 ， 通 
过 几 个 指令 就 可 以 把 长 格式 的 数据 变换 为 短 格式 的 数据 框 。 


3.5.1 揉 数据 函数 


R 中 有 两 个 揉 数据 函数 stack0 和 unstack0， 用 于 数据 长 格式 和 宽 格 式 之 间 的 转换 ， 我 们 形象 
地 比喻 其 为 “ 揉 数据 ?”， 也 就 是 在 原 有 的 数据 格式 基础 上 ， 将 其 变换 成 其 他 的 形式 。 


stack() 把 一 个 数据 框 转换 成 两 列 : 一 列 为 数据 ， 另 一 列 为 数据 对 应 的 列 名 称 。 


> x=data.frame (A=1:4,B=seq(1.2,1.5,0.1),C=rep (1, 4)) 


>x 

A BC 
下 
2 总 -La3; 1 
3 3 1 1 
4 4 1:5 1 


>xl=stack (x) 
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于 
valuesind 


2 TsO A 
此 2 A 
3 3.0 A 
4 4.0 A 
3 1.2 ®B 
6 i153)75B 
7 1.4 B 
8 二 瑟 
9 4s0 € 
10 LO © 
1 E50 已 
12 1i:0 ©€ 


unstack() 是 stack 的 逆 过 程 ， 被 转换 的 对 和 象 包含 两 列 ， 它 把 数据 列 按 照 因 子 列 的 不 同 水 平 重新 
排列 ， 分 离 为 不 同 的 列 。 

很 早 以 前 我 们 觉得 Excel 的 数据 透视 表 是 一 个 非常 神奇 的 工具 ， 其 实在 R 里 面 unstack0O 就 可 
以 实现 类 似 的 效果 。 如 果 各 列 的 数量 相等 ，unstack0 就 将 它 强制 转换 为 数据 框 ， 否 则 转换 为 列表 。 

被 转换 的 对 象 默 认 第 一 列 为 数据 ， 第 二 列 为 因子 ， 如 果 不 是 这 个 顺序 ， 则 需要 参数 form 设置 
公式 类 型 : 公式 左边 的 变量 是 值 , 右边 的 变量 会 被 当成 因子 类 型 ， 它 的 每 个 水 平行 都 会 形成 一 列 。 


>unstack (xl form=values~ind) 


A B EC 
1 
最 2 3 了 1 
3 Ls 
A 3 款 


和 stack 作用 类 似 的 是 函数 reshape0， 但 该 函数 里 的 参数 非常 多 ， 很 难 记 忆 ， 使 用 起 来 也 不 
方便 ， 尤 其 当 “ 大 牛 ”Hadley Wickham 创造 出 程序 包 reshape 和 reshape2 后 该 函数 几乎 不 再 被 提 
起 。 既 然 可 以 被 遗忘 ， 我 们 就 等 走投无路 的 时 候 (虽然 几乎 不 会 发 生 ) 再 考虑 用 它 吧 ， 下 面 直接 
进入 新 的 程序 包 。 


3.5.2 ” 揉 数 据 的 最 佳 伴侣 


揉 数据 的 最 佳 伴侣 是 reshape2 程序 包 ， 提 到 这 个 程序 包 的 作者 Hadley Wickham 也 许 你 并 不 
熟悉 ， 但 了 解 了 他 写 过 的 R 程序 包 之 后 ， 你 一 定 会 承认 他 是 个 “大 牛 ”。 


Wickham 写 过 很 多 程序 包 ， 他 的 想法 新 颖 ， 包 中 的 函数 既 方便 使 用 又 能 产生 很 好 的 效果 ， 可 
以 说 颠覆 了 许多 传统 的 函数 方法 ， 不 可 不 谓 牛 人 也 。 最 著名 的 有 ggplot2、plyr、reshape2 等 ， 在 
下 一 章 中 我 们 会 重点 介绍 ggplot2 一 一 目前 备 受 瞩目 的 画图 工具 ,plyr 在 数据 处 理 方面 也 非常 好 用 。 
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程序 包 reshape2 是 reshape 的 重 写 版 ， 是 专门 用 于 数据 集 形状 转换 的 ， 可 以 直接 安装 和 使 用 
reshape2。 包 里 的 函数 很 少 ,一 般 用 户 常 使 用 melt0、acast0 和 dcast0， 但 它们 却 可 以 把 数据 “ 揉 ” 
成 各 种 形状 。 


melt 本 身 的 意思 是 溶解 、 分 解 ， 其 作用 在 一 个 数据 集 上 其 实 就 是 拆 分 数据 ， 它 的 对 象 可 以 是 
数组 (array)、 数 据 框 或 列表 。 与 stack() 的 作用 一 样 ，melt 将 数据 框 或 列表 转换 成 两 列 ， 只 是 这 
里 第 一 列 是 变量 名 称 ， 第 二 列 是 变量 数值 。 

>install .packages ("reshape2") 

>library ("reshape2", lib.loc="D:/R-3.0.1/library") 

>melt (x) 

Using as id variables 


variable value 


下 A 1.0 
2 入 没 训 QQ 
3 A 3.0 
4 A 4.0 
5 Bi 


meltO 还 可 以 用 于 处 理 更 复杂 的 数据 框 ， 不 过 需要 进行 参数 设置 : 
melt (data, id.vars, measure.vars, variable.name = "variable", ..., na.rm = FALSE, 
Value .name = "value") 
其 中 ，id.vars 是 被 当做 新 数据 (长 格式 ) 维度 的 列 变量 ， 可 以 指定 多 个 ， 成 为 variable 列 ; 
measure.vars 是 观测 值 的 列 变量 , 构成 新 数据 的 value 列 ; 分 别 用 variable.name 和 value.name 来 指 
定 新 的 列 变量 名 。 当 然 这 两 个 参数 可 以 只 指定 其 中 一 个 ， 剩 余 的 列 自动 归 为 另 一 个 参数 。 


下 面 使 用 基础 包 中 的 airquality 数据 集 来 举例 说 明 ， 以 变量 月 、 日 为 分 组 依据 ,将 原始 数据 转 
换 为 长 格式 的 数据 集 。 

>data (airquality) 

>str (airquality) # 显 示 R 对象 的 内 部 结构 ， 功 能 类 似 于 summary () 

'data.frame': 153 obs. of 6 variables: 

"OZone int 4L 36 12+ 18 NA 28 23 E98 NAV... 


$ Solar.R: int 190 118 149 313 NA NA 299 99 19 194 ... 

$ Wind » mum Ta4 8 12.6 11.5 14.3 14.9 8a6 138 20::1 8.6 i 
S"Temp : int M672 74 2.56 "56 .65 .59 6 69 4a. 

$ Month, :intn5 S55.55 "55 5 .a8 

$ Day $7 


>longdata=melt (airquality,id.vars=c ("Ozone", "Month","Day"),measure.vars=2:4) 
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>str (longdata) 


"data.Erame' : 459 obs. of 5 variables: 

$ Ozone : int 41 36 12 18 NA 28 23 19 8 NA ... 

ss Month 3 dint S539355550T ss 

$ Day ;EE 9 0 。 

$ variable: Factor Ww/ 3 levels "Solar.R","Wind",..: LilL1i11l111111 ... 
$ value : num 190 118 149 313 NA NA 299 99 19 194 ... 


看 到 这 里 ， 很 多 人 可 能 会 产生 疑问 : 用 melt0 处 理 后 的 数据 变 长 了 ， 又 有 什么 好 处 呢 ? 对 数 
据 格式 的 重新 排列 可 以 根据 实际 中 的 需要 进行 ， 在 这 个 例子 中 ， 拆 分 以 后 的 数据 可 以 按 多 个 不 同 
变量 分 类 ， 利 用 ggplot2 在 一 个 图 形 中 多 维度 地 展示 value 值 。 


>library (ggplot2) 
> p=ggplot (data=longdata,aes (x=Ozone, y=value, color=factor (Month) ) ) 


>ptgeom point (shape=20, size=4)+facet wrap (~variable,scales="free y")+ 
geom_ smooth (aes (group=1), fill="gray80") #scale=”free y” 设 置 每 个 图 形 自动 调整 y 轴 范 围 





Qzone 


图 3.3 ”ggplot2 绘图 


和 stack() 一 样 ，melt0 也 有 对 应 的 函数 用 来 还 原 数 据 : acast0 用 于 数组 ，dcast0 用 于 数据 框 ， 
其 中 的 参数 formula 是 一 个 公式 ， 左 边 的 每 个 变量 都 会 成 为 新 数据 集中 的 一 列 ， 右 边 的 变量 是 因 
子 ， 其 每 个 水 平行 在 新 数据 集中 成 为 一 列 ， 从 而 把 长 格式 数据 转换 为 短 格式 。 


包 reshape2 之 所 以 厉害 ， 在 于 它 不 仅仅 可 以 转换 数据 ， 还 可 以 对 数据 进行 汇总 ， 由 参数 
fun.aggregate 实现 汇总 ， 例 如 : 
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>shortdata=dcast (longdata, formula=Ozone+Month+Day~variable) 
>head (shortdata, 5) 


Ozone Month Day Solar.R Wind Temp 
1 下 5 21 8 9.7 59 
2 4 5S 23 25 9527 61 
3 6 5 18 78 18.4 357 
4 了 5 11 NA 6.9 74 
5 7 7 15 48 14.3 80 
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数据 的 图 形 描述 


图 形 是 展示 数据 分 析 结果 的 一 个 重要 工具 ， 它 可 以 直观 并 且 美 观 地 反映 变量 之 间 的 各 种 关 
系 。 作 为 数据 分 析 的 重要 平台 ，R 软件 拥有 非常 强大 的 绘图 功能 ， 而 且 工 具 的 灵活 性 很 强 ， 用 户 
可 以 根据 自己 的 要 求 绘制 所 需 图 形 。 


随 着 越 来 越 多 的 绘图 程序 包 的 开发 ， 用 R 画 出 来 的 图 形 也 越 来 越美 观 。 学 会 用 R 画图 ， 是 用 
R 做 数据 分 析 必 不 可 少 的 一 个 前 提 。 


4.1 R 绘图 概述 


R 提供 了 非常 丰富 的 绘图 功能 ， 其 绘图 函数 多 种 多 样 ， 用 户 可 以 通过 RR 自身 提供 的 演示 示例 
来 初步 了 解 。 通 过 以 下 两 个 函数 ， 可 以 分 别 展示 二 维 、 三 维 图 形 的 示例 。 

>demo (graphics) 

>demo (persp) 


在 R 中 执行 绘图 命令 , 会 启动 一 个 图 形 设备 驱动 ， 该 驱动 会 打开 特定 的 图 形 窗口 以 显示 交互 
式 的 图 片 。 一 旦 设备 驱动 启动 ，R 绘图 命令 就 可 以 被 用 来 产生 统计 图 或 者 设计 全 新 的 图 形 显示 。 
此 外 ，R 有 一 系列 图 形 参数 ， 可 以 修改 这 些 图 形 参 数 从 而 定制 你 的 图 形 环境 。 

图 形 工具 是 R 环境 的 一 个 重要 组 成 部 分 。R 提供 了 多 种 绘图 相关 的 命令 ， 可 分 成 三 类 : 


。 ”高 级 绘图 命令 。 在 图 形 设备 上 产生 一 个 新 的 图 区 ， 它 可 能 包括 坐标 轴 、 标 签 、 标 题 等 。 

。 ”低级 绘图 命令 。 在 一 个 已 经 存在 的 图 形 上 加 上 更 多 的 图 形 元 素 , 如 额外 的 点 、 线 和 标签 。 

。 ”交互 式 图 形 命令 。 允 许 交互 式 地 用 鼠标 在 一 个 已 经 存在 的 图 形 上 添加 图 形 信息 或 者 提取 
图 形 信息 。 


使 用 RR 语言 作 图 ， 主 要 按照 以 下 步骤 进行 : 
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获取 原始 数据 ， 准 备 好 绘图 需要 的 变量 。 
如 有 需要 ， 对 绘图 区 域 进行 设置 、 分 割 。 
绘制 图 形 ， 例 如 创建 坐标 轴 并 绘制 点 图 、 曲 线 或 其 他 类 型 的 图 。 
标注 图 形 。 对 图 形 进行 标注 ， 包 括 在 图 形 中 添加 标题 、 坐 标 轴 标 注 、 文 字 标 注 等 。 
设置 图 形 格式 ， 添 加 图 例 。 包 括 设 置 图 形 中 的 线 宽 、 线 型 、 颜 色 ， 标 记 点 的 形状 、 大 小 、 
颜色 ， 以 及 坐标 轴 格 式 等 。 

@@ 保存 和 导出 图 形 。 按 指定 文件 格式 、 属 性 保存 或 导出 图 形 ， 以 备 以 后 使 用 。 


接 下 来 我 们 按照 这 个 流程 ， 一 步 一 步 地 了 解 R 绘图 的 各 种 功能 。 


@GEO@OO 


4.2 绘图 区 域 分 割 


数据 的 获取 和 准备 在 前 面 两 章 已 经 讲 过 , 通常 R 作 图 的 对 象 是 向 量 或 数据 框 ， 读 入 数据 时 一 
般 可 以 直接 形成 图 形 。 下 一 步 是 对 绘图 区 域 的 设置 ， 默 认 情 况 下 ， 绘 图 区 域 每 次 只 显示 一 个 图 ， 
如 果 想 要 做 图 形 的 比较 ， 那 最 好 可 以 在 一 个 界面 内 同时 显示 多 个 图 框 ， 这 就 需要 进行 设置 。 在 R 
中 ,主要 有 三 个 函数 par0、layoutO0 和 split.screen0 可 以 完成 图 形 区 域 的 分 割 ， 下 面 分 别 进行 讲述 。 


4.2.1 函数 par() 


函数 par0 可 以 将 绘图 区 域 分 割 成 规则 的 几 部 分 ， 例 如 par(mfrow=c(3,2)) 将 图 形 区 域 分 成 3x2 
的 多 重 图 框 ， 每 块 显示 一 个 图 形 ， 按 行 显示 ， 也 可 以 使 用 mfcol 按 列 输入 图 形 。 


例如 ， 我 们 想 把 4 幅 图 画 在 同一 个 图 形 区 域 中 ， 可 以 使 用 如 下 指令 完成 ， 涉 及 的 绘图 函数 下 
文 会 详细 介绍 ， 这 里 主要 说 明 如 何 分 割 图 形 区 域 。 


># 首 先 ， 准 备 绘图 数据 : 从 外 部 读 取 或 随机 数 生成 
>dat=read.table("d:/data/online shopping.txt",header=T) 
>attach (dat) 

> x=rnorm(1000) 

> x=x[x<0] 

> y=data.frame (x1=1:5,x2=rnorm(5,0,1),x3=rgamma (5,2,3)) 

# 将 区 域 分 为 4 个 部 分 

>par (mfrow=c (2,2)) 

# 分 别 输 入 4 个 绘图 命令 

>plot (period,amount) 

>hist (x, xlim=range (x) ,main="hist of x",freq=F,nclass=30,density=20,angle=45) 
>matplot (y, type="1", col=1 :3) 

>plot (period,amount,pch=22,col="red",bg="yellow", cex=1 .5) 
>title ("online shopping",font.main=3,adj=1) 


绘制 的 图 形 如 图 4.1 所 示 。 


56 ”数据 分 析 : R 语言 实战 


hist of x 





























n/N ph 
WM 
Wh 
MM 







] 
~ 








~、 


/ 
/ 


4 


armount 
Density 


几 


钱 ， 









0 10000 25000 


MW 





00 02 04 06 08 





让 人 人 
amount 


0 10000 25000 


如 





4.1 使 用 函数 par0 分 割 绘图 区 域 


使 用 指令 par 分 割 的 区 域 比较 规则 ， 想 要 灵活 度 就 要 与 指令 mfg 配合 ， 但 频繁 使 用 mfg 并 不 
方便 ， 因 此 我 们 介绍 函数 layout()。 


4.2.2 函数 layout() 


layoutO 内 部 的 参数 是 一 个 矩阵 (matrix)， 其 通过 定义 矩阵 来 灵活 地 将 图 形 区 域 进行 分 割 ， 
matrix 默认 按 列 输入 。 


layout (mat, widths = rep.int(1, ncol (mat)), heights = rep.int(1I1，nrow (mat) ) ，Lespect 
= FALSE) 


mat 为 矩阵 ， 用 于 设置 窗口 的 划分 ， 珑 阵 的 0 元 素 表示 该 位 置 不 画图 ， 非 0 元 素 必须 包括 从 
1 开始 的 连续 整数 值 ， 比 如 ，1,2,.…,N， 按 非 0 元素 的 大 小 设置 图 形 的 顺序 。widths 用 来 设置 窗口 
不 同 列 的 宽度 ，heights 设置 不 同行 的 高 度 。 例 如 : 


。 layout(matrix(1:4,2,2))， 将 绘图 区 域 分 成 2x2 的 多 重 图 框 。 
。 layout(matrix(c(1,3,2,3),2,2))， 将 图 形 区 域 分 成 三 个 不 规则 的 区 域 。 


3 
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e layout(matrix(c(1,1,2,3,2,3),2,3))， 将 图 形 区 域 分 成 如 下 的 不 规则 区 域 。 
| 
分 割 完 成 后 ， 通 过 指令 layout.show(3) 可 以 查看 区 域 分 割 后 的 结构 。 要 取消 图 形 区 域 分 割 ， 输 
入 指令 layout(1)。 


4.2.3 函数 split.screen() 


split.screen() 同 样 由 问 量 或 矩阵 灵活 控制 区 域 的 分 割 方式 ， 例 如 : 


>split.screen(c(2,1))  # 将 图 形 区 域 分 成 上 下 两 部 分 显示 

世相 2 

>split.screen(c(1,2),screen=2) # 将 第 二 部 分 (下 半 区 ) 又 分 割 成 两 个 区 域 

[1] 3 4 

从 而 ， 现 在 将 图 形 区 域 分 成 了 三 块 ， 原 来 的 区 域 2 分 割 后 编号 分 别 为 3 和 4。 

> screen (1)  # 准 备 在 第 一 个 区 域 绘图 

>hist (x, xlim=range (x) ,main="hist of x",freq=F,nclass=30,density=20,angle=45) 
> screen (3)  # 准 备 在 下 半 区 的 第 一 个 区 域 绘图 

>matplot (y, type="1", col=1 :3) 

> screen (4)  # 准 备 在 下 半 区 的 第 二 个 区 域 绘图 


>plot (period,amount,pch=22, col="red",bg="yellow", cex=1 .5) 


分 区 结果 以 及 所 绘制 图 形 如 图 4.2 所 示 。 


hist of x 


Density 





amount 
0 15000 35000 





2008 2010 2012 2014 2016 
period 


图 4.2 使 用 函数 split.screen() 分 割 绘图 区 域 


58 ”数据 分 析 : R 语言 实战 


在 每 个 区 域 画 图 后 ， 还 可 以 通过 指令 erase.screen0) 清 除 图 形 ， 然 后 重新 绘制 。 使 用 指令 
close.screen(all=TRUE) 可 退出 分 割 画 面 的 模式 。 


4.3 ”二 维 图 形 


设置 好 绘图 区 域 ， 下 一 步 就 可 以 通过 R 中 的 各 种 绘图 函数 将 数据 可 视 化 了 。 众 所 周知 ， 图 形 
是 我 们 直观 地 了 解 和 认识 数据 的 一 种 可 视 化 方法 ， 如 果 能 将 观察 数据 直接 显示 在 一 个 平面 图 中 ， 
我 们 就 可 以 一 目 了 然 地 看 出 分 析 变 量 之 间 的 数量 关系 。 


R 具有 多 种 作 图 工具 ， 我 们 首先 从 基本 的 二 维 图 形 开 始 介绍 ， 例 如 散 点 图 、 直 方 图 等 就 是 比 
较 常 用 的 二 维 平面 图 示 。 
4.3.1 高 级 绘图 函数 

在 R 中 有 两 种 绘图 函数 ， 分 别 为 : 

。 ”高 级 绘图 函数 。 创 建 一 个 新 的 图 形 。 

e ”低级 绘图 函数 。 在 已 经 存在 的 图 上 添加 更 多 元 素 ， 如 额外 的 点 、 线 和 图 例 等 。 

绘制 图 形 的 第 一 步 ， 要 从 高 级 函数 开始 ， 创 建 坐标 轴 并 绘制 点 图 、 曲 线 或 其 他 类 型 的 图 。 

1. 函数 plot() 

plotO 是 最 常用 的 高 级 绘图 函数 ， 这 是 一 个 泛 型 函数 ， 其 产生 的 图 形 依赖 于 参数 的 类 型 。plot 
可 以 有 多 种 变形 ， 有 具体 如 表 4.1 所 示 。 

表 4.1 plot() 函 数 


x 值 为 横 坐 标 、y 值 为 纵 坐标 的 散 点 图 (如 果 x 是 一 个 时 间 序 列 ， 则 产生 时 间 序 列 图 ) 


f 是 一 个 因子 (factor) 对 象 ， 产 生 f 的 直方 图 


产生 数据 框 中 各 变量 的 分 布 图 





下 面 以 2008~2016 年 各 年 我 国 网 络 购物 交易 规模 数据 为 例 ， 其 中 2013~2016 年 数值 为 预测 结 
果 。 使 用 plot 函数 绘制 简单 的 散 点 图 。 

>dat=read.table("d:/data/online shopping.txt",header=T) 

>attach (dat) 

>plot (period,amount) 
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绘制 结果 如 图 4.3 所 示 。 
在 plot 函数 中 指明 所 使 用 的 数据 集 ， 还 可 通过 如 下 方式 ， 实 现 与 上 述 指令 相同 的 效果 : 


e plot(dat$period,dat$amount) 
® with(dat,plot(period,amount)) 


e plot(amount~period,data=dat) 


25000 


amount 


10000 





0 





2808 2010 2012 2014 2016 


图 4.3 网 络 购物 交易 规模 散 点 图 
除了 plot0 函 数 ， 还 有 许多 高 级 绘图 函数 用 来 绘制 各 种 类 型 的 图 形 ， 常 用 的 如 表 4.2 所 示 。 
表 4.2 其 他 高 级 绘图 函数 



























symbols(x,y) 以 x 和 y 指定 坐标 位 置 画 出 符号 〈 圆 、 正 方形 、 星 形 或 箱 线 图 )， 符 号 的 大 小 颜色 由 


本 章 开头 提 到 ,绘图 的 第 @ 步 是 标注 图 形 ， 即 在 图 形 中 添加 标题 、 坐 标 轴 标 注 、 文 字 标 注 等 
这 是 通过 设置 绘图 参数 来 完成 的 。 高 级 绘图 函数 有 一 些 共同 的 参数 设置 ， 具 体 如 表 4.3 所 示 。 
表 4.3 高 级 绘图 西数 的 参数 设置 
FE ne 
| 默认 为 FALSE。 若 为 TRUE， 则 将 图 形 骆 加 到 前 一 个 图 上 〈 若 之 前 已 绘制 了 一 个 图 ) 


默认 为 FALSE， 不 绘制 轴 和 边框 











a 






设置 图 形 的 类 型 : p 为 点 、! 为 线 、b 为 点 连 线 式 、o 为 点 线 式 且 线 在 点 上 、h 为 垂直 
线 、s 为 阶梯 式 ， 垂 直线 顶端 显示 数据 。S 为 阶梯 图 ， 线 底 端 显示 数据 ，n 为 不 显示 
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图 形 ， 只 画 出 坐标 轴 ， 常 与 低级 绘图 函数 一 起 使 用 


rear | 
标 轴 的 标 和 
指定 坐标 轴 的 显示 范围 ， 例 如 xlim=c(1,10) 或 者 xlim=range(x) 

互联 网 购物 和 电 商 行业 是 目前 的 热点 问题 ， 我 们 使 用 2012 年 各 购物 网 站 交易 规模 的 市 场 份 
额 数据 绘制 饼 图 ， 由 图 4.4 可 以 直观 地 看 出 各 网 站 份额 的 占 比 情况 ， 并 为 其 添加 主 标题 。 

> percent=c(56.7,19.6,5.5,4.7,2.7,10.8) 

> labels=c ("天 猫 ", "京东 ", "苏宁 易 购 ", "腾讯 B2C"v" 亚 马 示 中国"，" 其 他 ")  # 添 加 标签 


>pie (percent, labels,col=2:7,main="Pie chart for online shopping",font=2) 














Pie chart for online shopping 


天 站 
BD / 
亚马逊 中 国 
京东 用 讯 B2C 


苏宁 易 购 





图 4.4 表示 各 网 站 市 场 份额 的 饼 图 


函数 hist() 
在 统计 数据 的 描述 分 析 中 ， 我 们 常常 使 用 直方 图 来 观察 数据 的 分 布 状态 ， 因 此 在 这 里 重点 介 


绍 直方 图 的 绘制 。R 软件 中 使 用 hist0 指 令 绘制 直方 图 。 


hist(x, breaks = "Sturges", freq = NULL, probability = !freq, 
include.lowest = TRUE, right = TRUE, density = NULL, angle = 45, 


col = NULL, border = NULL, main = paste("Histogram of" , xname), 
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xlim = range (breaks), ylim = NULL, xlab = xname, ylab, axes = TRUE， 
plot = TRUE, labels = FALSE, nclass = NULL, warn.unused = TRUE, ...) 


除了 基本 的 参数 ，hist0 有 一 些 特殊 的 参数 设置 ， 具 体 如 表 4.4 所 示 。 
表 4.4 hist() 的 参数 设置 


i 二 


下 面 举例 说 明 如 何 使 用 hist0 绘 制 直方 图 。 首 先 在 R 中 随机 生成 1000 个 正 态 分 布 的 随机 数 ， 
然后 使 用 指令 hist 画图 。 


> x=rnorm(1000) 
> x=x[x<0] 













>hist (x, xlim=range (x),main="hist of x",freq=F,nclass=30,density=20,angle=45) 


绘制 的 结果 如 图 4.5 所 示 。 


hist of x 


© 
ee 
o 
© 
ee 
[= 
[=] 
Q 
口 
OO 
[= 





图 4.5 直方 图 
4.3.2 ”多 元 数据 绘图 


在 实际 的 数据 分 析 中 ， 几 乎 我 们 得 到 的 所 有 数据 集 都 是 多 变量 的 ， 这 对 图 形 描述 提出 了 更 高 
的 要 求 。 接 下 来 介绍 几 个 R 中 常用 的 多 元 作 图 工具 ( 见 表 4.5), 它们 也 属于 高 级 绘图 函数 的 范畴 。 
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表 4.5 多 元 绘图 函数 


matplot(x) x 为 数据 框 ， 将 其 各 列 都 绘制 在 同一 张 图 中 
matplot(x,y) 


二 元 作 图 : x 的 各 列 与 y 的 各 列 对 应 
coplot(x~y | ¢) 关于 c 的 每 个 数值 绘制 x 与 y 的 散 点 图 
coplot(x~y | c+d) 在 c 和 d 的 联合 区 间 内 绘制 x 与 y 的 散 点 图 


x 是 矩阵 或 数据 框 ， 产 生 x 各 列 之 间 的 散 点 图 ， 共 nx-D) 个 图 


其 中 ， 函 数 coplot0 和 pairs() 默 认 的 图 形 样式 为 散 点 图 ， 但 通过 参数 panel， 可 以 设置 为 期 望 
的 图 形 。maplotO 通 过 参数 type 可 修改 图 形 样式 。 接 下 来 ， 我 们 通过 两 个 简单 的 例子 来 说 明 多 元 
数据 的 绘图 , 首先 使 用 matplot0 对 数据 框 作 图 , 可 以 将 数据 框 内 的 各 变量 画 在 同一 个 图 形 区 域 中 。 

># 首 先生 成 数据 ; x2 为 正 态 分 布 随机 数 ，x3 为 gamma 分 布 的 随机 数 

> y=data.frame (xl1=1:5,x2=rnorm(5,0,1),x3=rgamma (5,2,3)) 

>matplot (y, type="1", col=1:3,1lwd=2) 

# 添 加 图 例 

> legend(1,5,col=1:3,pch="———",legend=c ("xX1"，"X2"，"X3") ) 


绘制 结果 如 图 4.6 所 示 。 













图 4.6 ”matplot0 多 元 绘图 


当 多 元 数据 中 含有 因子 〈factor) 变量 时 ， 使 用 coplot0 函 数 作 图 更 为 合适 。 以 R 中 自 带 的 数 
据 集 warpbreaks 为 例 ， 其 中 包含 三 个 变量 : breaks 为 数值 型 向 量 ，wool 和 tension 为 因子 。 


>data (warpbreaks) 
>coplot (breaks ~ 1:54 | wool * tension, data = warpbreaks,col = "red", bg = "pink", 
pch = 21,bar.bg = cl(fac = "light blue")) 


绘制 结果 如 图 4.7 所 示 。 
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Given ' tension 





图 4.7 coplot0 多 元 绘图 
4.3.3 ”低级 绘图 函数 


利用 高 级 函数 画 出 基本 图 形 后 ， 可 使 用 低级 绘图 函数 添加 新 的 图 形 元 素 ， 如 上 点、 图例、 标签 
等 。 表 4.6 列 出 了 主要 的 函数 。 


表 4.6 低级 绘图 函数 













a 


text(x,y,labels) 在 坐标 (x,y) 处 添加 文字 ， 用 labels 指定 文字 内 容 。 常 用 text 在 图 中 添加 数学 表达 式 ， 


需要 通过 expression 转换 数学 公式 
在 图 的 边缘 添加 文本 text，side 指定 添加 在 哪 一 边 ，line 指定 文字 离 图 形 区 域 的 行 数 


abline(a,b) 绘制 斜率 为 b、 截 距 为 a 的 直线 ; 若 参 数 为 h=y， 则 表示 在 纵 坐 标 y 处 画 水 平 线 ， 车 
以 (xl,y1) 为 左下 角 、(x2;y2) 为 右上 角 绘 制 长 方形 
下 面 使 用 低级 函数 ， 我 们 在 上 面 直方 图 例子 的 基础 上 ， 添 加 线 和 图 例 : 


>lines (density (x) ,col="blue") 

















>lines(-3:0,dnorm(-3:0,mean (x) ,sdq(x) ) ,coL="red") 


>legend(=3,1rpeh=c'(15, -1;=1) ,lty=e (=1,1r1);col=e{("gray", "blue" "red"), legend=c ("h 
istogram", "density line","normal density line")) 


绘制 结果 如 图 4.8 所 示 。 


hist of x 


半 histogram 
一 density line 
一 一 normal density line 





00 02 04 06 08 1.0 





图 4.8 添加 线 和 图 例 


4.3.4 图 形 美 化 


使 用 高 级 绘图 函数 可 以 描绘 出 基本 图 形 ， 函 数 内 还 包括 大 量 的 参数 用 于 指定 图 形 的 颜色 、 形 
状 等 , 通过 改变 这 些 设 置 可 以 对 图 形 进行 美化 。 通 过 指令 help(pan 可 以 查看 这 些 参数 的 详细 信息 ， 
表 4-7 中 列 出 了 常用 的 一 些 参数 。 


表 4.7 绘图 函数 中 的 参数 设置 
控制 文本 对 齐 方式 ，0 是 左 对 齐 ，0.5 是 居中 对 齐 ，1 是 右 对 齐 
| bg | 背景 闫 色 ，colors0 可 以 显示 657 种 可 用 请 的 称 | 
图 形 边框 形状 


符号 和 文字 大 小 。cex.axis、cex.lab、cex.main、cex.sub 分 别 控制 坐标 轴 、 标 签 、 标 题 和 副标题 


颜色 。 与 cex 类 似 ， 也 有 col.axis、col.lab、col.main 和 col.sub 参数 
文字 字体 : 1 为 正常 ，2 为 斜体 ，3 为 粗 体 ，4 为 粗 斜体 


las | 歼 标 轴 刻 度数 字 的 方向 :0 为 平行 于 轴 ，! 为 横 排 ，2 为 垂直 于 轴 ，3 为 坚 排 


















有 wx 胃 不 如 未 
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图 4.9 绘图 符号 (pch) 
使 用 函数 par0 可 以 永久 改变 绘图 参数 ， 即 后 面 的 图 形 都 按照 par 指定 的 样式 绘图 。 例 如 输入 
par(col="red") 将 后 面 图 形 的 符号 颜色 都 指定 为 红色 。 


最 后 根据 上 述 的 参数 设置 ， 我 们 对 第 一 个 例子 一 一 网 络 购 物 交 易 规模 的 散 点 图 进行 美化 。 


>plot (period,amount,pch=22, col="red",bg="yellow",cex=1 .5) 
>title("online shopping",font.main=3,adj=1) 


结果 如 图 4.10 所 示 。 


online shopping 





~ 25000 
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图 4.10 ”图形 美化 
4.3.5 ”交互 式 绘 图 命令 


交互 式 绘 图 ， 听 起 来 有 些 “ 不 明 觉 厉 ”” 实 际 上 交互 式 绘图 命令 的 操作 很 简单 ， 其 可 以 帮助 
用 户 通 过 鼠标 或 键盘 等 方式 与 图 形 的 内 容 进 行 交 互 。 有 时 我 们 需要 根据 自己 的 想法 而 不 是 数据 进 
行 绘图 ， 这 就 需要 非常 灵活 地 在 已 有 图 形 上 做 各 种 修改 ，R 自身 的 图 形 设备 有 些 力不从心 ， 因 为 
要 更 新 图 形 只 能 重新 绘制 。 


R 中 的 交互 式 绘图 函数 为 此 提供 了 很 好 的 支持 ， 其 对 于 探索 性 数据 分 析 往 往 有 很 大 的 帮助 ， 
它 的 主要 作用 有 : 局 部 放大 、 高 亮 部 分 元 素 或 调整 元 素 属性 〈 散 点 图 中 点 的 大 小 、 透 明度 ， 直 方 
图 中 的 窗 宽 等 )。 
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R 的 交互 式 函数 允许 用 户 直 接 用 鼠标 在 一 个 图 上 提取 和 提交 信息 , 最 简单 、 最 常用 的 函数 是 : 

locator (n, type="n", ...) 

输入 locator0 后 ， 系 统 等 待 用 户 用 鼠标 左 键 在 图 上 单 击 n 个 位 置 ， 然 后 返回 n 次 点 击 的 坐标 
(x, y); 如 果 设 置 了 参数 type， 则 在 这 mn 个 位 置 绘制 type 指定 的 图 形 元 素 ， 如 绘制 符号 (type="p") 
或 连 线 (type="1")。 还 可 以 在 locator 中 设置 其 他 绘图 参数 ， 如 颜色 。 比 如 : 

> x=rnorm(10) # 生 成 10 个 随机 数 


> plot (x) # 对 x 绘制 散 点 图 
> locator (5,"0",col="red") 
$x 


[1] 2.621896 4.350554 4.844457 7.762971 7.897672 


$y 
[1] 0.4210845 0.4483606 -0.9699985 -0.6154088 0.9393311 


结果 如 图 4.11 所 示 。 





图 4.11 用 locator() 进 行 交互 式 绘 图 


在 图 4.11 中 ， 输 入 函数 locator0 后 用 鼠标 单 击 了 5 个 位 置 ， 在 这 5 个 位 置 绘制 了 红色 散 点 并 
返回 5 个 位 置 对 应 的 〈xy) 坐标 值 。 另 外 ， 不 设置 type 时 locator0 不 绘制 任何 图 形 元 素 ， 只 把 用 
户 单 击 的 坐标 记录 下 来 ， 这 一 功能 可 以 用 于 图 形 的 定位 。 

> locator (2) 


$x 
[ 革 2.666796 2.891297 


$y 

[1] 1.1575402 -0.3153713 

使 用 交互 函数 会 让 你 觉得 非常 神奇 、 灵 活 。R 中 另 一 个 比较 有 意思 的 交互 函数 是 identify()， 
它 用 于 在 散 点 图 中 找 出 点 。 输 入 它 之 后 ， 系 统 读 取 在 图 中 鼠标 按 下 时 指针 的 坐标 位 置 ， 然 后 搜索 
(x,y) 指 定 的 坐标 点 ， 如 果 这 一 点 足够 接近 指针 的 位 置 ， 那 么 将 在 图 中 返回 指定 的 图 形 元 素 。 


identify(x, y, labels,...) 
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x 和 y 指定 散 点 图 中 点 的 坐标 位 置 , 可 以 是 一 个 向 量 , 向 量 的 长 度 即 要 查找 的 点 的 个 数 ; labels 
是 可 选 的 参数 ， 为 找到 的 点 添加 标签 ， 默 认 情 况 下 ， 将 在 图 中 添加 标签 “1”。 这 个 函数 看 起 来 有 
些 抽象 ， 实 际 上 使 用 起 来 还 是 很 简单 的 ， 例 如 : 


> plot(x) 

> identify(c(4,6),c(1,0),1label=c("a", "b"),col="red") 
warning: no point within 0.25 inches 

[LE] 半 之 


绘制 结果 如 图 4.12 所 示 。 





图 4.12 用 identify0 进 行 交互 式 绘图 


输入 函数 后 ， 用 鼠标 在 点 (4,1) 附 近 单 击 一 下 ， 再 在 点 (6,0) 附 近 单 击 ， 若 是 点 击 的 位 置 偏 离 较 
大 ， 则 产生 warning， 和 警告 在 指定 的 坐标 位 置 附近 没有 找到 点 ， 需 要 重新 点 击 。 最 后 按照 已 经 
置 好 的 标签 ， 分 别 在 两 个 点 处 生成 图 形 元 素 “a”“b”。 


4.4 三 维 图 形 


处 理 多 变量 的 数据 集 时 ， 二 维 图 形 逐 渐 不 能 够 满足 我 们 的 要 求 ， 可 以 通过 立体 图 展示 多 个 变 
量 之 间 更 多 的 信息 。 在 三 个 维度 的 世界 里 ， 视 觉 上 的 层次 分 明和 色彩 上 的 丰富 艳丽 ， 会 给 人 很 强 
的 视觉 冲击 力 ， 留 下 更 深刻 的 印象 。 在 使 用 R 画图 时 ， 我 们 也 有 必要 掌握 三 维 图 形 的 绘制 。 


R 中 绘制 三 维 图 形 的 基本 函数 有 三 个 ， 分 别 为 : 


。 ”image(x,y,z)， 产 生长 方形 的 网 格 ， 以 不 同 颜色 表示 z 的 值 。 
。 ”contour(x,y,z)， 以 等 高 线 表 示 z 的 值 。 
。 ”persp(x,y,z)， 产 生 3D 表面 。 


例如 persp0， 它 是 在 系 了 平面 的 基础 上 绘制 透视 图 。 


persp(x = seq(0, 1, length.out = nrow(z)), y = seq(0, 1, length.out = ncol(z)), Zz, 
xlim = range (x), ylim = range(y), zlim = range(z, na.rm = TRUE), 

xlab = NULL, ylab = NULL, zlab = NULL, main = NULL, sub = NULL, 

theta = 0, phi = 15, r = sqrt(3), d = 1, scale = TRUE, expand = 1, col = "white") 


其 中 , 参数 x 和 y 必须 是 升序 的 向 量 , 默认 情况 为 等 距 的 从 0 到 1 的 数值 向 量 。 如 果 x 是 list， 
其 成 分 x$x 和 x$y 将 分 别 用 于 x 和 y。z 是 和 矩阵， 表示 要 描绘 的 值 〈 允 许 NA)。theta 和 phi 用 来 
定义 观察 方向 的 角度 。 


这 里 我 们 将 demo(persp) 中 的 演示 示例 调用 出 来 加 以 说 明 。 
> x=seq(-10, 10, length.out = 50) 

> y=x 

# 自 定义 函数 rotsinc 

>rotsinc=function (x,y) 


市 站 
十 sinc=function(x) { y=sin(x)/x ; ylis.na(y)]=1l; y } 
+ 10. w sine( Sart (x 2+Y*2) ) 


中 

>sinc.exp=expression(z == Sinc(sqrt(x^2 + y^2))) #expression 用 于 转换 数学 表达 式 
> z=outer (x，y, rotsinc) # 数 组 外 积 运 算 : 通过 x,y 和 rotsinc 函数 生成 矩阵 z 
>oldpar=par (bg = "white") 

>persp(x, y, z, theta = 30, phi = 30, expand = 0.5, col = "lightblue") 
>title(main = sinc.exp) 


绘制 结果 如 图 4.13 所 示 。 


z= Sinc(|x2+y) 





图 4.13 ”persp() 三 维 绘图 


上 面 提 到 的 三 个 函数 仅 适用 于 绘制 比较 规范 的 三 维 图 形 ， 做 出 效果 图 。 在 实际 数据 分 析 中 ， 
当 需 要 做 多 个 变量 的 三 维 散 点 图 时 ， 就 需要 调用 程序 包 内 的 函数 来 完成 了 。 
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目前 有 多 个 程序 包 都 含有 3D 绘图 函数 ， 最 常用 的 是 程序 包 rgl 中 的 plot3d()， 用 它 绘图 的 一 
大 好 处 是 ， 我 们 可 以 用 鼠标 旋转 3D 图 ， 调 整 到 自己 希望 的 角度 ， 这 样 图 形 观察 起 来 非常 方便 。 


plot3d(x, y, z, xlab, ylab, zlab, type = "p", col, size, lwd, radius, add = FALSE, 
aspect = !add, ...) 


其 中 的 参数 设置 与 plot 基本 类 似 ，x,y,z 可 以 用 一 个 数据 框 来 代替 ，size 表示 绘制 点 的 大 小 。 


下 面 以 瑞典 死亡 率 的 真实 数据 集 为 例 ， 其 数据 量 较 大 ， 首 先 我 们 需要 通过 一 个 三 维 图 形 建 立 
一 个 直观 的 认识 。 这 里 以 年 份 、 年 龄 为 x，y 轴 ， 画 出 死亡 率 数 据 的 三 维 散 点 图 。 

>mortality=read.csv('d:/data/swedish mortality.csv',header=T) 

>library (rgl1) 


>attach (mortality) 
The following objects are masked from mortality (position 3): 


Age, Female death, Female Exp, L female exp, L male exp, Male death, 
Male Exp, q female, q male, Year 
>plot3d (Year, Age,q male,col='grey',type='p"',2zlim=1) 


绘制 结果 如 图 4.14 所 示 。 


1990000 
019701960 





图 4.14 三 维 散 点 图 


4.5 lattice 程序 包 


随 着 实际 数据 集 的 复杂 程度 越 来 越 高 , 仅仅 使 用 R 自 带 的 绘图 函数 已 经 难以 达到 理想 的 图 形 
效果 ， 更 多 、 更 强大 的 绘图 程序 包 就 应 运 而 生 了 。 


首先 介绍 程序 包 lattice， 它 主要 用 于 处 理 结构 稍微 复杂 一 些 的 数据 集 ， 其 具有 入 门 较 容 易 、 
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作 图 速度 较 快 、 图 形 函 数 种 类 较 多 的 特点 ， 还 可 以 进行 三 维 绘图 。 


lattice 适用 于 多 个 变量 的 数据 集 绘图 ， 其 中 的 大 部 分 函数 是 以 一 个 公式 作为 主要 的 自 变量 ， 
例如 y~x | z 表 示 绘 制 y 关 于 x 的 图 ， 并 以 变量 z 为 分 类 依据 ， 画 出 多 个 图 。 表 4.8 列 出 了 lattice 
程序 包 中 主要 的 函数 。 


表 4.8 lattice 中 的 主要 函数 
















的 二 
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理论 分 布下 x 的 分 位 数 图 
两 样本 的 分 位 数 图 ，x 是 数值 型 变量 ，y 可 以 是 数字 、 字 符 或 因子 
条 开 轩 ，x 必须 是 才 值 ，y 可 以 是 因子 


wienete 


之 所 以 说 lattice 包 很 容易 入 门 ， 是 因为 其 中 的 函数 使 用 起 来 非常 简单 ， 与 R 中 基本 的 函数 并 
无 太 大 差异 。 与 plot0 函 数 类 似 ，lattice 中 的 各 绘图 函数 也 有 main、xlab 等 基本 参数 设置 ， 可 以 通 
过 帮助 页 面 查 看 。 例 如 groups 指定 分 类 变量 ; type 指定 图 形 类 型 ， 选 项 auto.key 在 图 形 中 添加 图 
例 ， 图 例 自动 生成 ， 我 们 只 需 给 出 图 例 所 在 的 坐标 位 置 即 可 。 


下 面 用 一 个 实例 来 说 明 。 在 程序 包 ggplot2〈 下 一 节 介 绍 ) 中 带 有 很 多 结构 复杂 的 数据 集 ， 我 
们 将 使 用 其 中 的 diamonds 作 图 ， 以 给 读者 展现 更 好 的 图 形 效果 。 数 据 集 diamonds 包括 了 钻石 的 
重量 〈carat)、 颜 色 、 价 格 和 质量 信息 ， 共 有 10 个 变量 ， 部 分 数据 如 表 4.9 所 示 。 


表 4.9 diamonds 数据 集 
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>install .packages ("ggplot2") 
>library ("ggplot2") 
>data (diamonds,package="ggplot2") 


首先 ， 绘 制 散 点 图 是 最 基本 的 功能 ， 通 过 函数 xyplotO 作 价格 和 重量 的 二 维 散 点 图 ， 并 根据 
变量 cut 区 分 散 点 。 这 里 注意 函数 内 部 一 些 重 要 参数 的 含义 。type 指定 图 形 类 型 ; p 表示 画 出 散 点 ; 
smooth 表示 画 出 平滑 曲线 ， 且 其 光滑 程度 由 参数 span 控制 ， 选 项 auto.key 在 图 形 中 添加 图 例 ， 
corner=c(1,0) 表 示 图 例 放 在 右 下 角 ; main 添加 图 形 标题 。 

># 为 了 图 形 效 果 更 好 ， 从 数据 中 随机 抽取 1000 个 样本 作 图 


>sample=diamonds [sample (nrow (diamonds),1000),] 


>xyplot (price~carat,data=sample, groups=cut,auto.key=list (corner=c (1,0)),type=c("p 
","smooth"),span=0.7,main="Price VS. Carat") 


绘制 结果 如 图 4.15 所 示 。 


Price VS, Carat 





图 4.15 lattice 散 点 图 和 平滑 曲线 


绘制 这 样 一 个 较为 复杂 的 多 元 散 点 图 ，R 的 基本 函数 也 可 以 完成 ， 但 使 用 起 来 会 比较 麻烦 ， 
因而 这 也 体现 了 lattice 处 理 多 元 数据 的 便捷 性 。 再 比如 ， 以 color、cut 分 组 绘制 price 的 箱 线 图 ， 
不 需要 对 绘图 区 域 进行 分 割 ， 一 个 简单 的 指令 就 可 以 完成 。 


>bwplot (color~price | cut,data=diamonds,main="Box-and-Whisker Plots of Price") 


绘制 结果 如 图 4.16 所 示 。 
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Box-and-Whisker Plots of Price 


-om wm 
"CY Ym op am 





图 4.16 ”lattice 绘制 分 组 箱 线 图 


当然 ， 为 了 更 好 地 按 某 一 分 类 变量 去 比较 数据 ， 有 些 时 候 也 需要 分 制图 形 区 域 。 使 用 lattice 
绘图 时 ， 分 割 绘 图 区 域 的 操作 变 得 很 简单 ， 只 要 设置 参数 layout 即 可 。 例 如 以 钻石 颜色 color 为 
分 类 变量 ， 使 用 函数 histogram() 绘 制 价格 的 直方 图 ， 其 中 参数 layout 表示 图 形 的 布局 ， 例 如 
layout=c(2,5) 表 示 图 形 的 排列 方式 是 两 列 五 行 。 

>library (lattice) 


>histogram(~price | color,data=diamonds, layout=c (2,4)) 


绘制 结果 如 图 4.17 所 示 。 


Percent of Total 





图 4.17 lattice 绘制 分 组 直方 图 
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上 文中 还 提 到 ，lattice 中 含有 绘制 三 维 图 形 的 函数 ， 其 中 cloud0 用 于 绘制 三 维 散 点 图 ， 与 
plot3d0 效 果 相 似 , 但 可 以 进行 分 组 绘图 ; wireframe() 用 于 绘制 3D 表面 图 , 它 与 基础 包 中 的 persp() 
效果 相似 。 下 面 就 用 一 个 绘制 3D 表面 图 的 例子 加 以 说 明 。 

> x=seq(-pi,pi,1len = 20) 

> y=seq(-pi,pi,1len = 20) 

> g=expand.grid (x=x, y=y) # 构 造 一 个 数据 框 ， 内 部 变量 为 x,y 

>g$z=sin (sqrt (g$x^2+g$y^2) ) # 对 数据 框 g 添 加 变量 z 

>wireframe (z~x*y, data=g, drape=TRUE,aspect=c (3,1),colorkey=TRUE,main=expression (z= 

sinl(sqrt (x^2+y^2)))) 

wireframe() 中 的 参数 drape 是 一 个 逻辑 值 ， 表 示 是 否 在 图 形 表面 着 色 ， 若 为 TRUE，3D 表面 
的 颜色 将 根据 z 轴 的 不 同 取 值 而 变化 ， 若 为 FALSE， 表 面 的 颜色 即 图 形 背 景色 。aspect 是 一 个 长 
度 为 2 的 数字 向 量 ， 用 来 确定 面板 的 长 宽 比 ,向量 中 的 两 个 数值 分 别 表示 图 4.18 中 封闭 立方 体 的 
y-size/x-size 和 z-size/x-size 两 个 比值 。colorkey 为 逻辑 值 ， 表 示 图 形 旁 边 是 否 用 列表 描述 颜色 。 
参数 main 设置 标题 ， 通 过 expression() 对 数学 公式 进行 转换 。 


sin(yX+ y) 





4.18 lattice 绘制 3D 表面 图 


此 外 ， 程 序 包 scatterplot3d 中 的 函数 scatterplot3d()、lattice 中 的 函数 wireframe() 等 也 都 可 以 
实现 类 似 的 作 图 ， 这 里 不 再 一 一 介绍 了 。 


4.6 ggplot2 程序 包 
R 自 带 的 作 图 函数 还 是 比较 基础 的 ， 功 能 相对 单一 ， 随 着 越 来 越 多 新 程序 包 的 开发 ，R 语言 
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的 绘图 功能 日 趋 强大 ， 图 形 的 美感 也 直线 上 升 。 如 果 读 者 可 以 用 RR 绘制 出 与 众 不 同 、 数 学 效果 与 
艺术 美感 兼备 的 图 形 ， 那 么 在 报告 中 都 能 给 人 留 下 耳目 一 新 、 印 象 深 刻 的 感觉 。 接 下 来 ， 我 们 介 
绍 一 个 非常 热门 的 作 图 工具 一 一 ggplot2， 目 前 在 使 用 的 广泛 程度 上 ， 它 已 经 远 远 超过 了 lattice。 


ggplot2 是 R 中 用 于 绘图 的 高 级 程序 包 ， 它 将 绘图 视 为 一 种 映射 一 一 数学 空间 到 图 形 元 素 空 
间 的 映射 ， 例 如 将 不 同 的 数值 映射 为 不 同 的 颜色 或 其 他 图 形 属性 。 使 用 过 photoshop 的 读者 对 图 
层 的 概念 一 定 不 陌生 ，ggplot2 在 画图 时 就 是 采用 了 图 层 的 设计 方式 ， 人 允许 用 户 一 步 步 构建 图 形 ， 
并 且 便 于 图 层 的 修改 。ggplot2 绘图 的 另 一 大 好 处 是 简洁 、 美 观 ， 通 过 控制 图 层 我 们 可 以 得 到 非常 
理想 的 图 形 效果 。 


4.6.1 快速 绘图 


首先 介绍 函数 qplot()， 它 与 plot0 的 设计 类 似 , 适用 于 快速 绘图 ， 所 以 初学 者 较 容易 掌握 。 它 
的 参数 设置 与 plot0 也 比较 接近 ， 如 x, y 指定 横 、 纵 坐标 的 变量 ，data 指定 数据 集 。 比 较 特 殊 的 参 
数 是 facets (位 图 )， 很 多 时 候 我 们 要 将 数据 按 某 种 方式 分 组 ， 分 别 进行 绘图 ， 我 们 就 是 用 facets 
来 控制 分 组 的 方法 和 排列 形式 的 。qplotO 的 调用 格式 如 下 : 


qplot (x, y = NULL, ..., data, facets = NULL, margins = FALSE, geom = "auto", stat = 
list (NULL), 

position = list (NULL), xlim = c(NA, NA), ylim = c(NA, NA), log = "", main = NULL, 
xlab = deparse (substitute(x)), ylab = deparse (substitute(y)), asp = NA) 


下 面 仍 以 diamonds 数据 集 为 例 ， 在 具体 应 用 中 详细 说 明 参 数 的 用 法 。 使 用 函数 plotO 绘 制 多 
个 变量 的 图 形 时 ， 我 们 需要 自己 设置 图 形 样式 、 颜 色 并 添加 图 例 ， 而 qplot0 函 数 可 以 自动 地 为 我 
们 完成 这 些 任 务 ， 只 需 用 shape、color 和 size 等 参数 指定 分 类 变量 ，R 就 可 以 自动 设置 图 形 的 形 
状 、 颜 色 和 大 小 。 如 从 原始 数据 集 diamonds 中 随机 抽取 一 部 分 样本 绘制 价格 与 重量 之 间 的 散 点 图 ， 
根据 变量 cut 和 color 分 组 。 


>sample=diamonds [sample (nrow (diamonds),200),] 
# 参 数 shape 指定 变量 cut 为 分 类 依据 ， 按 变量 color 绘制 不 同 颜色 的 散 点 


>qplot (carat,price,data=sample, shape=cut, color=color) 
绘制 结果 如 图 4.19 所 示 。 
qplot0 函 数 并 不 局 限于 绘制 散 点 图 ， 通 过 改变 参数 geom， 可 以 绘制 多 种 图 形 样式 。 


。 ”geom="points" 绘 制 散 点 图 ， 当 qplot(x,y) 包 含 x,y 两 个 参数 时 ， 默 认 绘制 散 点 图 。 
。 ”geom="smooth" 表 示 对 所 有 散 点 拟 合 一 条 曲线 。 

。 ”geom="boxplot" 生 成 数据 点 分 布 的 箱 线 图 。 

。 ”geom="path" 和 geom="line" 在 数据 点 之 间 连 线 ， 常 用 于 绘制 时 间 序 列 图 。 
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图 4.19 qplot0 绘 制 散 点 图 及 参数 设置 
另外 ， 对 于 连续 变量 而 言 ， 
e ”geom="histogram" 绘 制 直方 图 ， 当 qplot(x) 只 含有 x 这 一 个 参数 时 ， 默 认 绘制 直方 图 。 
e ”geom="freqpoly" 绘 制 频 数 多 边 形 。 
。 ”geom="density" 绘 制 密度 函数 图 。 
离散 型 变量 通常 用 geom="bar" 绘 制 条 形 图 。 


例如 ， 在 上 述 散 点 图 中 添加 一 条 平滑 曲线 ， 通 过 method 参数 可 以 指定 曲线 拟 合 的 方法 ， 默 认 
为 method="loess" 一 一 平滑 局 部 回归 。 参 数 span 控制 曲线 的 平滑 程度 ， 取 值 越 大 曲线 越 平 滑 。 


>qplot (carat, price,data=sample, geom=c ("point","smooth"),span=0.3) 
geom smooth: method="auto" and size of largest group is <1000, so using loess. Use 
'method = x' to change the smoothing method. 


绘制 结果 如 图 4.20 所 示 。 
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图 4.20 散 点 图 及 平滑 曲线 
我 们 已 经 强调 过 直方 图 在 统计 分 析 中 的 重要 作用 , 下面 使 用 qplotO 对 变量 carat 画 出 更 美观 的 
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直方 图 。 其 中 参数 binwidth 用 于 调整 柱 形 的 宽度 , 取 值 越 大 则 柱 形 越 宽 。 需要 特别 注意 的 一 点 是 ， 

在 设置 直方 图 颜色 时 ， 要 使 用 参数 fill 填充， 而 不 是 color (color 仅 改 变 柱 形 外 边框 的 颜色 )。 
>qplot (carat, data=diamonds,geom="histogram",binwidth=0.1,xlim=c(0,3),fill=color) 
绘制 结果 如 图 4.21 所 示 。 
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图 4.21 gqplot0 绘 制 直 方 图 


4.6.2 ”分 图 层 绘图 


qplot(O) 与 plotO 函 数 的 使 用 方式 比较 类 似 ， 而 ggplot(O 真 正 引入 了 图 层 的 概念 ， 它 可 以 更 灵活 
地 绘图 和 修改 。 图 层 允 许 用 户 一 步 一 步 地 构建 图 形 , 程序 包 中 包含 很 多 类 函数 , 例如 数据 、 映 射 、 
几何 对 象 、 统 计 变 换 等 ， 每 类 函数 都 可 作为 一 个 单独 的 图 层 ， 下 面 我 们 来 分 门 别 类 地 介绍 。 


(1) 数据 和 映射 
在 加 载 程序 包 后 ， 绘 图 的 第 一 个 步骤 是 用 ggplot 定义 第 一 个 图 层 ， 第 一 个 图 层 将 数据 中 的 变 
量 通过 Mapping 映射 到 图 形 属性 。 


ggplot (data, mapping=aes (x, y, <other aesthetics>)) 


其 中 ，data 指定 数据 集 ; 参数 mapping 用 于 构建 映射 ,通常 使 用 函数 aes(0) 来 指定 x 轴 和 y 轴 
的 变量 ， 还 可 以 指定 其 他 分 类 变量 ， 如 颜色 (color)、 形 状 (shape〉 和 大 小 (size) 等 。 


这 里 仍 使 用 数据 集 diamonds 为 例 , 随机 选取 其 中 的 1000 个 样本 绘图 。 首先 使 用 ggplot0 构 建 
第 一 图 层 ， 确 定数 据 来 源 ， 指 定 carat 为 x 轴 变 量 、price 为 y 轴 变 量 ， 并 将 变量 clarity 映射 为 颜 
色 属 性 。 第 一 图 层 是 对 图 形 的 初始 化 ， 只 定义 了 “映射 > ， 所 以 在 绘图 区 域 中 没有 图 形 ， 我 们 可 
以 将 定义 的 第 一 图 层 存 储 于 p 中 。 


>sample=diamonds[sample (nrow (diamonds),1000),] 
> p=ggplot (data=sample,mapping=aes (x=carat, y=price, color=clarity)) 
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(2) 几何 对 象 


基本 图 层 确 定 了 数据 源 和 映射 后 ， 通 过 加 号 (+) 就 可 以 不 断 地 添加 新 图 层 ， 一 般 的 步骤 是 ， 
第 二 图 层 添加 几何 对 象 类 的 函数 ， 在 图 中 绘制 图 形 元 素 ， 如 点 、 线 、 多 边 形 等 ， 还 可 以 用 来 绘制 
其 他 类 型 的 图 形 ， 如 直方 图 、 箱 线 图 等 。 


几何 对 象 类 别 的 函数 以 “geom_” 开 头 ， 后 面 接 所 需 的 图 形 样式 ， 与 qplotO) 中 的 参数 geom 是 
一 致 的 。 表 4.10 列 出 了 比较 常用 的 一 些 函 数 。 


表 4.10 几何 对 象 (geom) 函数 


geom_blank 空白 ， 只 显示 横 纵 坐标 ， 不 绘制 任何 图 形 ; 在 此 基础 上 可 以 继续 添加 图 形 
对 和 象 


图 





















上 面 函数 内 部 的 基本 参数 都 是 一 样 的 。 以 散 点 图 为 例 ， 


geom point (mapping = NULL, data = NULL, stat = "identity", position = "identity", na.rm 

= FALSE, ...) 

参数 mapping 用 于 构建 映射 ，data 指定 数据 集 ， 如 果 在 第 一 图 层 已 经 指定 ， 则 可 以 省 略 ;，stat 
用 于 这 一 层 数 据 的 统计 变换 ，position 用 于 这 一 层 图 形 的 位 置 调整 ， 常 用 于 条 形 图 (bar) 和 直方 
图 ， 取 值 为 “identity” 时 表示 直接 显示 ,“dodge” 为 按 分 类 变量 并 列 放 置 , “stack” 为 堆 堆 放置 ， 
“fill” 显 示 相 对 比例 ;“jitter” 为 增加 扰动 ， 常 用 于 散 点 图 ， 防 止 图 形 过 分 重 苍 。 


接 上 例 ， 使 用 “+” 添 加 第 二 图 层 散 点 图 和 第 三 层 的 平滑 曲线 ， 这 时 绘图 区 域 将 显示 出 我 们 


图 
方 
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定义 的 几何 图 形 。 
>p+geom point()+geom smooth() 


geom smooth: method="auto" and size of largest group is <1000, so using loess. Use 
'method = x' to change the smoothing method. 


与 上 面 代 码 等 价 的 另 一 种 写法 是 : 


> d=ggplot (data=sample,aes (x=carat, y=price, color=clarity))+geom Point ()+geom smooth () 
> print (d) # 绘 制 的 命令 


绘制 结果 如 图 4.22 所 示 。 





图 4.22 散 点 图 和 平滑 曲线 


上 图 在 第 二 个 图 层 geom_point0 中 没有 设置 参数 ， 则 根据 第 一 层 的 参数 设置 ， 以 系统 默认 的 
方式 绘图 ， 即 clarity 为 分 类 变量 ， 对 数据 分 别 进行 平滑 。 但 是 ， 如 果 在 geom_point0 中 设置 了 参 
数 ， 那 么 其 反映 的 属性 仅 针对 这 一 层 的 图 形 ， 不 会 对 其 他 图 层 产 生 影响 。 


例如 ， 我 们 想 要 对 上 面 的 图 形 进行 整体 平滑 ， 可 以 将 参数 color 设置 在 第 二 图 层 geom_pointO 
这 样 第 三 图 层 的 平滑 曲线 不 会 再 根据 clarity 分 类 绘制 。 


> p=ggplot (data=sample aes (x=carat,y=price)) # 这 里 不 再 指定 color 的 分 类 变量 
>p+geom point (aes (color=clarity))+geom_ smooth () ## 仅 第 二 图 层 分 类 画 点 
geom smooth: method="auto" and size of Largest group is >=1000, so using gam with 


formula: y ~ s(x, bs = "cs"). Use 'method = x' to change the smoothing method. 


绘制 结果 如 图 4.23 所 示 。 


进行 数据 映射 时 ， 函 数 aes0 可 用 于 设置 图 形 样 式 ， 通 过 参数 color、shape 和 size 分 别 设置 点 的 

颜色 、 形 状 和 大 小 按 哪些 向 量 分 类 ， 通 过 这 些 参数 ， 即 使 一 个 简单 的 散 点 图 也 可 以 传递 大 量 信息 。 
> sample=diamonds [sample (nrow (diamonds),100),] # 从 diamonds 中 取 一 个 样本 量 为 100 的 子 集 
> p=ggplot (data=sample,aes (x=carat, y=price)) 


># 设 置 三 个 分 类 变量 color、cut 和 clarity， 分 别 用 不 同 颜色 、 形 状 和 大 小 表示 


中 
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># 参 数 alpha 控制 透明 度 
>#position="Jjitter" 对 散 点 增加 扰动 ， 防 止 点 的 过 度 重 登 


> ptgeom _ Point (aes (Color=color, shape=cut,size=clarity),alpha=0.5,position="jitt 
EE") 





图 4.23 ”整体 平滑 
绘制 结果 如 图 4.24 所 示 。 





图 4.24 图 形 样式 的 设置 


(3) 标 度 
标 度 负责 控制 图 形 属性 的 显示 方式 , 主要 包括 设置 坐标 轴 刻 度 , 修改 颜色 取 值 、 图 例 样 式 等 。 
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使 用 标 度 类 的 函数 , 相当 于 添加 一 个 新 的 图 层 , 因此 仍然 用 “+” 连 接 函 数 , 除了 基本 图 层 ggplot()， 
其 他 图 层 的 设置 都 可 以 应 用 于 函数 qplot(0)。 


首先 ， 设 置 坐标 轴 样 式 的 标 度 函 数 一 般 以 “scale x” 开 头 ， 如 scale x_date 显示 日 期 标 度 ， 
scale_ x_discrete 设置 离散 型 标 度 ， 最 常用 的 是 函数 scale x_continuous()， 其 用 于 设置 连续 性 刻度 ， 
它们 的 内 部 参数 都 是 一 致 的 ， 功 能 如 表 4.11 所 示 。 
表 4.11 scale_x_continuous() 的 参数 设置 


bb 人 
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有 三 个 内 置 的 坐标 轴 转 换 函 数 可 以 直接 使 用 ，scale_y_log100 表 示 对 y 轴 作 log10 转换 ; 
scale y_sqrt0 对 坐标 轴 作 开放 转换 ; scale_y_reserve(0 将 y 轴 刻 度 反 转 。 


此 外 ， 标 度 类 的 函数 中 还 包括 一 些 短 函数 ， 如 控制 坐标 轴 界 限 的 xlim0、ylim0， 修 改 坐 标 刻 
度 的 labs(x="",y="")。 


例如 绘制 重量 〈carat) 的 直方 图 ， 并 控制 x 轴 的 范围 ， 可 以 使 用 scale_x_continuous (limits)， 
也 可 以 使 用 短 函 数 xlim()。 


> p=ggplot (data=diamonds,aes (x=carat)) # 指 定 xX 轴 为 carat 变量 

> ptgeom histogram()+scale x continuous (limits=c(0,3))+opts (title="Hist of carat") 
># 可 以 使 用 xlim(0,3) 代 替 scale x _continuous (limits=c(0,3)) 

>#opts (title) 添 加 图 形 标题 

stat bin: binwidth defaulted to range/30. Use 'binwidth = x' to adjust this. 


绘制 结果 如 图 4.25 所 示 。 








图 4.25 ”坐标 轴 设 置 


第 4 章 ”数据 的 图 形 描述 81 


接 下 来 ， 修 改 图 形 样 式 的 函数 有 : scale manual (scale alpha_ manual，scale_color manual， 
scale_shape_manual, scale_size_manual) 对 和 透明度、 颜色 、 形状 的 离散 取 值 作 映 射 , 函数 scale_shape、 
scale_size 以 及 scale_linetype 专门 用 于 修改 形状 、 大 小 和 线 型 ， 可 以 作 连 续 或 离散 取 值 的 映射 。 
ggplot2 中 修改 图 形 颜色 的 标 度 函数 最 多 , 它们 都 以 “scale_color” 开 头 , 例如 scale_color_gradient、 
scale_color_grey 等 。 


在 上 面 的 直方 图 中 ， 如 果 想 要 对 color 的 不 同 取 值 ， 赋 予 特 定 的 颜色 ， 可 使 用 指令 
scale_ color manual(values) 完 成 ， 其 中 values 为 字符 串 向 量 , 例如 c("blue","red",...) 可 自 定义 颜色 。 

> p=ggplot (data=diamonds,aes (x=carat, fill=color)) 

># 注 意 ， 由 于 要 绘制 直方 图 ，color 应 该 映射 到 参数 fi11 表示 填充 颜色 


> ptgeom histogram()+xlim(0,3)+scale colour manual (values = rainbow(7)) # 定 义 为 彩虹 色 


绘制 结果 如 图 4.26 所 示 。 
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图 4.26 修改 图 形 颜色 


(4) 统计 变换 

统计 变换 函数 以 “stat” 开 头 ， 它 们 可 以 对 原始 数据 进行 某 种 函数 变换 ， 是 非常 重要 的 功能 。 
我 们 可 以 自 定义 函数 ， 基 于 原始 数据 计算 并 在 图 上 表现 出 来 ， 也 可 以 通过 它们 改变 “geom_” 函 
数 画图 的 默认 统计 参数 。 


stat 函数 很 多 ， 举 几 个 比较 常用 的 例子 : stat_ecdf 在 原始 数据 基础 上 计算 经 验 累 积分 布 函数 
并 画 出 曲线 图 ，stat_denstity 绘制 核 密度 估计 曲线 图 ，stat qq 绘制 qq 图 ，stat_smooth 添加 平滑 曲 
线 ，stat unique 删除 重复 值 ， 等 等 ， 函 数 stat_function 还 可 以 自 定 义 一 个 函数 并 绘 出 图 形 。 事 实 
上 ， 每 一 个 几何 对 象 都 内 置 了 一 个 统计 变换 。 比 如 散 点 图 的 几何 对 象 是 点 ， 内 置 统 计 变换 为 
stat identity (相等 )， 直 方 图 的 几何 对 象 是 条 形 ， 内 置 变 换 为 stat_bin 一 一 按照 区 间 统 计 频 数 。 


例如 用 stat_smooth 对 数据 作 loess 平滑 ， 在 carat-price 散 点 图 上 添加 非 线性 回归 线 。 
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>sample=diamonds[sample (nrow (diamonds),1000),] 
> ggplot (sample,aes (x=carat,y=price))+geom point()+scale y log10()+stat smooth() 


># 第 二 图 层 添 加 散 点 ; 第 三 图 层 对 y 轴 作 10910 变换 ; 第 四 图 层 添加 平滑 的 统计 变换 
绘制 结果 如 图 4.27 所 示 。 


price 
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carat 


图 4.27 统计 变换 


(5) 分 面 

当 我 们 想 要 观察 某 一 分 类 变量 对 数据 的 影响 情况 时 ， 仅 通过 shape、color 区 分 是 不 够 的 ， 往 
往 需 要 根据 变量 的 不 同 取 值 进行 分 组 、 分 别 绘图 。 这 时 就 要 用 到 facet 函数 ， 它 控制 数据 分 组 的 方 
法 和 排列 形式 ， 进 行 条 件 绘图 。 

常用 的 函数 是 facet_wrap(~x, ncol)， 其 中 x 表示 分 组 变量 ，ncol 表示 图 形 的 排列 方式 ， 即 分 


成 儿 列 。 也 可 以 用 facet_grid(x~.) 替 代 。 例 如 图 4.28 所 示 的 平滑 曲线 ， 若 按 变 量 cut 分 组 绘制 ， 
形 效果 会 非常 混乱 ， 但 利用 分 面 功能 ， 就 可 以 分 别 作 图 ， 便 于 比较 。 





price 





图 4.28 分 面 绘图 
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>ggplot (sample, aes (x=carat,y=price))+geom point (aes (Colour = cut))+ 
+ scale y logl0()+stat smooth()+facet wrap(~cut,ncol=3) 


># 在 geom_point () 中 将 cut 映射 到 颜色 属性 中 ; facet wrap() 中 的 ncol=3 表示 每 行 画 3 个 图 

(6) 坐标 系统 

坐标 系统 可 以 对 坐标 轴 进 行 某 种 变化 以 满足 不 同 的 绘图 需求 ， 主 要 的 函数 总 结 在 表 4.12 中 。 
表 4.12 ”坐标 系统 函数 


可 能 
TEST 





coord polar0) 转换 成 极 坐 标 ( 常 用 于 绘制 饼 图 、 靶 心 图 、 风 政 瑰 图 等 ) 
exp_trans() 
介绍 了 这 么 多 ggplot2 的 绘图 方法 ， 细 心 的 读者 可 能 发 现 ， 一 直 没 有 提 及 饼 图 ， 事 实 上， 在 
ggplot2 中 饼 图 就 是 柱状 图 ， 只 不 过 是 使 用 极 坐 标 而 已 ， 条 形 图 的 高 度 对 应 为 饼 图 的 角度 。 
例如 ， 按 不 同 的 切 工 (变量 cut) 分 组 绘制 饼 图 。 第 一 图 层 定义 数据 集 为 diamonds; 第 二 图 
层 绘制 条 形 图 ， 为 了 便于 绘制 饼 图 将 横 坐 标 设 为 因子 “1”， 最 后 ， 第 三 图 层 对 坐标 轴 作 极 坐 标 变 
换 ， 就 完成 了 饼 图 的 绘制 。 


>ggplot (diamonds) +geom bar (aes (x=factor (1), fill=cut))+coord polar (theta="y") 


>#theta="y" 表 示 将 条 形 图 y 轴 高 度 转换 为 饼 图 的 角度 


绘制 结果 如 图 4.29 所 示 。 





过 


factor(1) 





count 


图 4.29 人 饼 图 (通过 坐标 轴 变 换 ) 


84 ”数据 分 析 : R 语言 实战 


4.7 图形 保 存 


完成 绘图 后 ， 最 后 一 步 是 按照 指定 文件 格式 、 属 性 保存 和 导出 图 形 ， 以 备 以 后 使 用 。R 绘制 
好 的 图 可 以 保存 成 多 种 格式 ， 对 应 的 生成 函数 名 即 它 的 扩展 名 。 可 生成 的 文件 格式 有 png、jpeg 
和 pdf: 

png (file="myplot.png", bg="transparent") 

jpeg (file="myplot.jpeg") 

pdf (file="myplot .pdf") 

生成 文件 后 ， 默 认 在 后 台 打 开 ， 所 以 查看 图 形 文件 前 需要 用 dev.off() 关 闭 文 件 。 例 如 ， 将 上 
面 的 饼 图 保存 为 .png 文件 ， 输 入 下 面 指令 后 就 在 D 盘 的 文件 夹 data 中 生成 了 图 形 文件 。 

>png (file="d:/data/pie.png", bg="transparent") 

>dev .off () 

此 外 ， 程 序 包 ggplot2 中 的 函数 ggsave() 也 用 于 保存 图 形 ， 并 且 可 以 指定 为 不 同 的 文件 类 型 。 

ggsave (filename =' default _ name (plot), plot = last plot(), 

deviee = default device (filename) ,path = NULL, scale = 1, ...) 

filename 指定 生成 文件 的 路 径 、 名 称 及 扩展 名 ， 文 件 路 径 也 可 以 通过 path 设置 ，plot 填写 图 
形 对 象 ， 默认 为 最 后 显示 的 图 形 ; device 指定 要 使 用 的 设备 ， 自 动 提取 文件 扩展 名 ; scale 为 比例 
因子 。 将 上 面 的 饼 图 保存 成 一 个 pdf 文件 ， 只 需要 一 条 简单 的 指令 就 可 以 完成 。 

>ggsave (filename="d:/data/pie.pdf") 


Saving 7.67 x 4.53 in image 


这 样 就 生成 了 一 个 pdf 文件 ， 还 可 把 图 形 保 存 成 .png 格式 。 


4.8 ”实战 案例 : 数据 地 图 


在 实际 工作 中 经 常 碰 到 这 种 情况 ， 收 集 到 的 数据 与 地 理 位 置 有 关 ， 例 如 全 国 各 省 市 的 气温 、 
收入 水 平等 ， 如 果 能 将 数据 和 地 图 结合 起 来 ， 那 么 将 收 到 很 好 的 视觉 效果 。 


数据 地 图 是 一 种 经 典 的 图 示 方 法 , 因此 我 们 有 必要 掌握 如 何在 R 软 件 中 实现 数据 地 图 的 绘制 。 
前 面 已 经 详细 介绍 了 程序 包 ggplot2 的 用 法 ， 其 中 函数 geom_map0) 在 绘制 数据 地 图 时 非常 好 用 。 


geom map (mapping = NULL, data = NULL, map,stat = tl 0) 


参数 mapping 用 于 构建 映射 ， 通 常用 函数 aes() 指 定数 据 集 的 变量 ; 数据 集 则 存放 在 data 中 ; 
map 是 一 个 数据 框 ， 包含 地 图 的 所 有 基本 信息 ， 除 了 R 中 自 带 的 美国 地 图 外 ， 如 果 我 们 要 绘制 其 
他 国家 的 数据 地 图 ,通常 使 用 fortify0 创 建 一 个 空间 对 象 ,其 中 必须 包括 列 x 或 long、y 或 lat、region 
或 id 这 三 个 变量 , 用 于 指定 各 区 域 的 坐标 位 置 。stat 表示 这 一 层 数 据 的 统计 变换 , 默认 为 “identity” 
不 作 任何 变换 ， 即 直接 使 用 原始 数据 。 
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举 一 个 有 趣 的 例子 ，NBA 比赛 的 球 队 一 共有 30 支 ， 现 在 我 们 想 了 解 “ 小 皇帝 ”詹姆斯 (LBJ) 
对 阵 哪个 球 队 时 表现 最 好 , 或 者 说 得 分 更 高 呢 ? 这 时 绘制 一 个 数据 地 图 , 就 可 以 得 到 很 直观 的 结论 。 


首先 ， 我 们 要 收集 原始 数据 ， 其 中 包含 3 个 变量 : Opp 表示 对 手 的 球 队 名 称 ，AvgPTS 为 篇 
姆 斯 对 阵 该 队 时 的 平均 得 分 最 重要 的 变量 是 state， 表示 球 队 所 在 的 州 ， 各 州 的 名 称 必须 与 中 
内 置 的 美国 地 图 信息 保持 一 致 ， 美 国 地 图 的 数据 信息 通过 函数 map_data0 获 取 。 另 外 ， 由 于 NBA 
球 队 并 不 是 遍布 每 一 个 州 ， 对 于 没有 球 队 的 州 ， 我 们 将 对 应 的 AvgPTS 赋值 为 0， 这样 绘 制图 形 
时 就 会 以 灰色 区 域 表 示 了 。 

>library (ggplot2) 


> lbj=read.table("d:/data/1lbj .txt",header=T, quote="'") # 读 取 数 据 
>attach (1bj) 
> head (1bj) # 查 看 数据 集 的 前 5 行 
Opp AvgPTS state 
1 ATL 21.75georgia 
2 BOS 29.25massachusetts 
3 BRK 21.67 new york 
4 CHA 30.00north carolina 
5 CHI 28.00 illinois 
CEB ‘21.617 ohio 
> 


state map=map data ("state") # 获 取 美 国 地 图 的 数据 信息 
接 下 来 开始 ggplot 绘图 ， 定 义 如 下 几 个 图 层 : 


@ 第 1 图 层 ，ggplot0 指 明 数 据 集 lbj， 变 量 state 为 各 州 名 称 ， 即 map_id。 

@ ”第 2 图 层 ，geom_map() 绘 制 地 图 ， 将 得 分 AvgPTS 映射 到 填充 颜色 fill 上， 地 图 信息 
state_map 映射 到 变量 map 上 。 

@@ 第 3 图 层 ，expand limits() 设 置 横 坐标 轴 的 范围 。 

@ 第 4 图 层 ， 修 改 填充 颜色 和 图 例 样 式 。 红 色 表 示 得 分 高 ， 黄 色 表示 得 分 较 低 ， 颜 色 的 变 
化 范围 是 19~max(AvgPTS); guide="colorbar" 表 示 图 例 为 颜色 条 。 

@ 第 5 图 层 ， 添 加 图 形 标题 。 

@ 第 6 图 层 ， 在 图 形 上 添加 各 球 队 名 称 。 

>p=ggplot (lbj,aes (map id=state))+geom map (aes (fill=AvgPTS),map=state map)+ 

+ expand limits (x=state map$long,y=state map$lat)+ 


十 


scale fill continuous (Limits=c(19,max (AvgPTS) ) ,high= "redq3' ,Low= "Yellow'vguide="co 
lorbar")+ 


+ opts (title=' 麻 姆 斯 客场 平均 得 分 ') 
使 用 ggplot0 绘 制 地 图 的 指令 其 实 并 不 难 ， 但 是 添加 第 6 图 层 一 一 各 球 队 名 称 需 要 花费 一 番 
功夫 了 。 首 先 我 们 要 获取 各 州 的 坐标 位 置 ， 分 别 存放 在 向 量 xx 和 yy 中 : 


> attach (state map) 
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state.uni=unique (region) # 存 放 各 州 的 名 称 

Xxx=0;yy=0 # 事 先 建立 变量 xx 和 yy， 下 面 用 循环 找到 每 个 州 对 应 的 坐标 值 
forl(li in l:length(state.uni)) { 

xx[i]=mean (long[region==state.uni[i]]) 

yY[li]=mean (lat [region==state.uni[i]]) 

} 


接 下 来 使 用 ggplot2 包 中 的 函数 annotate0 在 图 中 添加 标签 。annotate(geom,x,y….) 专 门 用 于 在 
图 中 添加 注释 ， 注 释 类 型 由 参数 geom 指定 ， 由 于 我 们 要 添加 的 是 文本 ， 所 以 设 geom=“text”。 
在 此 之 前 ， 还 要 找到 各 州 对 应 的 球 队 名 称 ， 作 为 要 添加 的 “标签 ”。 


让 


order=0 # 按 变量 state.uni 的 顺序 找到 数据 集 1bj 中 各 州 的 位 置 ， 存 放 于 变量 order 
for(i in 1:1Length (state.uni)) { 

order [i]=which (state==state .uni[i]) 

} 

labels=Opp[order] # 通 过 位 置 找到 各 州 对 应 的 球 队 名 称 

ptannotate ("text", x=xx, y=yy, label=labels) # 最 后 绘图 并 添加 注释 





X 


图 4.30 美国 数据 地 图 : LBJ 得 分 


图 4.30 中 的 区 域 颜色 越 红 (看 上 去 颜色 越 深 )， 表 示人 詹姆斯 在 该 球 队 所 得 的 分 数 越 高 ， 状 态 
比较 火热 ， 黄 色 代 表 得 分 较 低 。 可 见 ， 詹 姆 斯 在 面 对 他 的 劲敌 OKC〈 俄 克拉 荷 马 雷霆 队 ) 时 ， 会 
打出 很 好 的 水 平 ， 得 分 也 较 高 。 


可 以 发 现 ， 利 用 ggplot2 绘制 美国 地 图 是 比较 容易 的 ， 因 为 美国 地 图 是 程序 包 maps 中 自 带 的 
地 图 。 但 其 他 国家 的 地 图 数据 则 要 从 外 部 导入 ,推荐 从 GADM 获取 全 球 各 行政 区 域 的 数据 ,GADM 
是 世界 行政 区 域 (或 行政 区 域 界线 ) 位 置 的 空间 数据 库 ， 可 专门 用 于 地 理 信 息 系统 和 类 似 的 软件 ， 
并 且 提 供 了 Rdata 格式 的 数据 ， 非 常 便于 在 R 中 绘制 数据 地 图 。 


在 实际 调查 项 目 中 ， 对 同一 个 指标 ， 我 们 经 常 能 够 获取 全 国 各 地 区 的 数据 ， 例 如 从 国家 统计 
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局 可 以 获取 2010 年 第 六 次 人 口 普查 我 国 各 地 区 的 人 口 数 据 ， 如 果 我 们 想 在 R 中 把 人 口 信息 绘制 
在 中 国 地 图 上 ， 即 根据 人 口 的 多 少 对 各 省 份 进行 着 色 ， 就 需要 从 GADM 导入 地 图 信息 。 


为 了 把 网 站 上 获得 的 地 图 信息 转换 成 ggplot2 需要 的 数据 框 格式 ， 要 用 到 程序 包 gpclib, 但 是 
在 R3.0.1 版 中 ,这 个 程序 包 目 前 还 无 法 安装 使 用 ， 因 此 我 们 介绍 R 中 另 一 种 绘制 地 图 的 方法 ， 即 
使 用 空间 分 析 程 序 包 sp0， 使 用 其 中 的 函数 spplot() 绘 制 数据 地 图 ， 比 ggplot2 的 方法 更 简单 。 

>install .packages ("sp") 

> library (sp) # 安 装 并 加 载 程序 包 

> # 从 gadm.org 网 站 上 得 到 中 国 的 省 区 地 理 数 据 ， 并 加 载 到 RR 软件 内 存 中 

>load (url ("http://gadm.org/data/rda/CHN adml .RData")) 

># 将 每 个 省 人 口 数 据 按 顺 序 存放 在 数据 框 gadm 中 ， 生 成 一 个 变量 Pop 

> gadm$pop=c (1961,1293,7185,3571,2470,4374,2745, 3831,2301,7866,5442, 

十 5950,3689,4456, 9579, 9402, 5723,6570,10432, 4602, 867,2884, 

十 8041,3474,4596,300,3732,2557,562,630,2181,706) 

> ## 利 用 空间 绘图 命令 进行 绘图 

> spplot (gadm, "pop", col.regions = rev (terrain.colors (gadm$pop) ) ,main=" 中 国 各 省 人 口 数 

据 ") 


spplotO 里 面 第 一 个 参数 指定 数据 集 ， 第 二 个 参数 指定 存储 各 省 数据 的 变量 名 ，colregions 设 
置 颜色 的 变动 范围 ， 如 topo.colors、terrain.colors、rainbow.colors 等 。 虽 然 spplot() 绘 图 速度 较 慢 ， 
但 图 形 效果 很 好 ， 在 图 4.31 中 ， 颜 色 越 深 ， 表 示 省 内 人 口 越 多 ; 颜色 越 淡 ， 表 示人 口 数 越 少 。 


中 国 各 省 人 口 数据 





图 4.31 中 国 数据 地 图 : 省 人 口 数 


数据 的 描述 性 分 析 


通过 前 面 两 章 的 学 习 ， 我 们 知道 ， 数 据 收集 是 取得 统计 数据 的 过 程 ， 数 据 预 处 理 是 将 数据 中 
的 问题 清理 干净 , 那么 接 下 来 的 步骤 就 是 统计 分 析 了 。 数据 分 析 是 通过 统计 方法 研究 数据 的 过 程 ， 
所 用 的 方法 分 为 描述 性 统计 和 统计 推断 两 部 分 。 描 述 性 统计 用 编制 图 表 、 计 算 统计 量 等 形式 对 数 
据 进 行 加 工 处 理 和 显示 ， 进 而 综合 、 概 括 和 分 析 ， 得 出 反映 所 研究 数据 的 一 般 性 特征 一 一 数字 特 
征 、 分 布 状态 等 。 


描述 性 统计 分 析 是 统计 分 析 的 第 一 步 ， 做 好 这 一 步 是 下 面 进行 正确 统计 推断 的 先决 条 件 。 
本 章 将 分 别 从 统计 量 和 图 形 的 角度 描述 样本 的 分 布 特征 , 重点 介绍 如 何 运 用 R 中 的 函数 完成 。 


5.1 R 内 置 的 分 布 


分 布 是 描述 一 个 样本 数据 最 核心 、 最 重要 的 方式 。R 内 嵌 了 很 多 常用 的 统计 分 布 ， 提 供 了 四 
类 函数 : 概率 密度 函数 《〈density)、 累 积分 布 函数 〈probability)、 分 位 数 〈quantile) 和 伪 随 机 数 
random)。 在 R 中 分 别 用 d、p、q、r 表示 这 4 个 项 目 ， 后 面 接 分 布 的 英文 名 称 或 缩写 。 


例如 正 态 分 布 的 4 个 函数 分 别 表 示 为 dnorm、pnorm、qnorm 及 morm。 表 5.1 列 出 了 R 中 的 
分 布 函数 ， 每 个 分 布 函数 都 有 各 自 的 参数 ， 有 些 有 默认 值 (如 正 态 分 布 默认 为 N(0,1))， 有 些 则 没 
有 。 


最 常用 的 函数 一 般 都 来 自 于 统计 分 析 程 序 包 stats， 它 不 需要 手动 安装 ， 打开 R 的 同时 其 就 已 
经 自动 加 载 。 另 外 ， 有 些 分 布 较为 复杂 但 在 统计 上 应 用 较 广 ， 例 如 Wishart 分 布 和 Pareto 分 布 ， 
使 用 它们 需要 加 载 新 的 程序 包 。 
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表 5.1 R 内 置 的 分 布 及 对 应 函数 
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5.2 集中 趋势 的 分 析 
5.2.1 集中 趋势 的 测度 

样本 观测 值 来 自 于 总 体 ， 其 中 含有 总 体 各 方面 的 信息 ， 乍 看 这 些 信息 有 时 显得 杂乱 无 章 ， 需 
要 对 样本 进行 加 工 ， 通 过 探索 性 分 析 、 计 算 统 计量 来 提炼 有 用 的 信息 。 

描述 数据 分 布 特征 的 统计 量 可 分 为 两 类 : 一 类 表示 数量 的 中 心 位 置 ， 另 一 类 表示 数量 的 变异 
程度 或 称 离散 程度 )。 两 者 相互 补充 ， 共 同 反 映 数 据 的 全 貌 。 


描述 统计 分 布 集中 趋势 的 指标 主要 是 平均 数 、 中 位 数 、 众 数 ， 也 称 为 “平均 指标 ”。 这 些 指 
标的 主要 作用 包括 : 


反映 总 体 各 单位 变量 分 布 的 集中 趋势 和 一 般 水 平 ; 
便于 比较 同类 现象 在 不 同 单位 之 间 的 水 平 ; 

便于 比较 同类 现象 在 不 同时 期 的 发 展 变化 趋势 或 规律 ; 
用 于 分 析 现 象 之 间 的 依存 关系 。 


(1) 均值 〈 平 均 数 ) 
均值 是 最 常用 于 度量 数据 平均 水 平 的 统计 量 ， 记 为 ~， 定 义 为 


(2) 众 数 

一 组 数据 中 出 现 次 数 最 多 的 观测 值 叫做 众 数 ， 用 MM 表示 。 众 数 测度 数据 的 集中 性 趋势 ， 一 
般 在 数据 量 较 大 的 情况 下 ， 众 数 比较 有 意义 。 众 数 不 受 极端 值 的 影响 ， 一 组 数据 分 布 的 最 高 位 置 
对 应 的 数值 即 众 数 。 


如 果 数 据 没 有 明显 的 集中 趋势 ， 那 么 众 数 可 能 不 存在 ; 如 果 有 两 个 最 高 峰 点 ， 那 么 这 组 数据 
就 有 两 个 众 数 。 


(3) 中 位 数 
中 位 数 简单 来 讲 就 是 数据 排序 位 于 中 间 位 置 的 值 ， 记 为 WM。， 即 
Xntl 


3 当 nn 为 奇数 时 


M.,= 1 
srs se 
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中 位 数 描述 数据 中 心 位 置 ， 对 于 对 称 分 布 的 数据 ， 均 值 接近 中 位 数 ， 偏 态 分 布 是 指 频数 分 布 
不 对 称 ， 集 中 位 置 偏向 一 侧 ， 数 据 的 均值 则 与 中 位 数 不 同 。 
中 位 数 是 描述 分 析 中 重要 的 统计 量 ， 与 众 数 类 似 ， 它 的 显著 特点 在 于 不 受 异常 值 的 影响 ， 具 
有 稳健 性 。 
平均 数 、 众 数 和 中 位 数 三 者 一 起 可 以 对 数据 的 分 布 形式 做 简单 描述 。 
。 ”如 果 数 据 具 有 单一 众 数 且 分 布 对 称 ， 那 么 均值 、 众 数 和 中 位 数 相等 ， 即 x=M, = M,。 


。 ” 若 集 中 位 置 偏向 数值 小 的 一 侧 ， 称 为 正 偏 态 分 布 ， 也 称 右 偏 分 布 ( 可 以 简单 地 记 为 分 布 
的 “尾巴 ”在 右边 )。 此 时 数据 存在 极 大 值 ， 必 然 拉 动 均 值 向 极 大 值 一 方 靠 扰 ， 因 此 
Xx>M,>M,。， 如 图 5.1(b) 所 示 。 


。 ”如 果 集 中 位 置 偏向 数值 大 的 一 侧 ， 称 为 负 偏 态 分 布 ， 也 叫 左 偏 分 布 ， 即 x < M., < M,， 
如 图 5.1(a) 所 示 。 


均 数 | | 均 数 
中 数 中 数 


a. 负 偏 态 分 布 b. 正 偏 态 分 布 
图 5.1 偏 态 分 布 
(4) 分 位 数 
中 位 数 是 将 数据 等 分 后 中 间 位 置 的 点 ， 与 之 类 似 的 还 有 四 分 位 点 、 十 分 位 点 和 百 分 位 点 。 常 
用 的 是 数据 排序 后 处 于 25% 和 75% 位 置 上 的 值 ， 即 四 分 位 点 。 
5.2.2 民 语言 实现 


R 中 的 函数 mean() 用 于 计算 样本 均值 ， 其 调用 格式 如 下 : 

mean (x, trim = 0, na.rm = FALSE, ...) 

内 部 的 参数 x 是 计算 对 象 ， 可 以 为 向 量 、 和 矩阵 、 数 据 或 数据 框 ，trim 用 于 设置 计算 前 去 掉 与 
均值 差别 较 大 数据 的 比例 ， 默 认为 0， 表 示 计 算 中 包括 全 部 数据 ; na.rm 默认 为 FALSE， 表 示 不 
允许 数据 有 缺失 。 


我 们 使 用 2007.01-2012.09 时 间 段 中 国人 寿 股票 价格 的 样本 作为 实例 ， 具 体 说 明 用 R 如 何 做 
描述 统计 。 这 一 数据 集 读 入 后 包含 两 列 ， 第 一 列 为 交易 日 期 ， 第 二 列 为 当日 收盘 价 : 


> data=read.csv("d:/data/ 中 国人 寿 股 价 .csv") 
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>attach (data) 

The following object is masked from data (position 3): 
Clspre, Trddt 

>price=Clsprc[!is.na(Clsprc)] # 获 得 价格 向 量 ， 同 时 去 掉 缺 失 数 据 
>mean (price) 

[1 27.83326 


有 时 计算 均值 时 ， 我 们 希望 赋予 各 变量 的 权重 是 不 一 样 的 ， 也 就 是 要 计算 加 权 平 均 数 ， 这 时 


用 到 的 指令 是 weighted.mean(x,w,.…)， 其 中 x 是 样本 数据 ，w 是 与 x 长 度 相等 的 数值 型 向 量 ， 用 
于 指出 赋予 样本 各 数据 的 权重 值 。 


中 位 数 通过 函数 median0 计 算 ， 该 函数 与 mean0 的 使 用 方法 相同 。 由 计算 结果 发 现 ， 均 值 略 


大 于 中 位 数 ， 可 以 初步 判断 ， 中 国人 寿 股价 样本 呈 右 偏 分 布 。 


>median (price) 
[1] 24.02 


分 位 数 通过 quantile0 计 算 ，x 是 数值 向 量 ，probs 给 出 相应 的 百 分 位 数 ， 默 认 值 是 


(0,0.25,0.5,0.75,1)，na.rm=FALSE 表示 不 允许 包含 缺失 数据 。 


默认 条 件 下 ， 可 以 直接 计算 出 “五 数 ” 最 小 值 、25% 的 四 分 位 数 、 中 位 数 、75% 的 四 分 位 数 


和 最 大 值 。 函 数 fivenum( 用 来 计算 五 数 。 


quantile(x, probs = seq(0, 1, 0.25), na.rm = FALSE,names = TRUE, type = 7, ...) 
>quantile (price) 
0% 25% 50% 75% 100% 
14.740 19.285 24.020 31.160 75.080 
>fivenum (price) 
bl 1 74 L927 2 .02 31516€ 757508 
>min (price) ;max (price) 
[1] 14.74 
[1] 75.08 


这 样 一 个 一 个 地 输入 函数 非常 不 方便 ，R 提供 了 总 体 描述 的 函数 。 函 数 summary0) 可 以 计算 


出 一 组 数据 的 五 数 和 均值 。 


>summary (price) 
Min.lst Qu.Median Mean3rd Qu. Max . 
Td 19528 2402 21583 31.16 375.08 


另外 ， 在 R 中 没有 直接 的 函数 用 来 计算 众 数 。 对 于 离散 型 样本 数据 ， 可 以 简单 地 手动 计算 ， 


使 用 指令 which.max(table(x))。 但 像 本 例 中 这 样 的 连续 型 样本 , 众 数 的 定义 是 其 分 布 的 密度 函数 峰 
值 对 应 的 取 值 ， 这 就 需要 我 们 自己 写 一 个 函数 (function) 来 计算 ,然而 出 于 描述 数据 分 布 形态 的 
目的 ， 我 们 大 可 以 直接 画 出 直方 图 来 观察 众 数 的 大 概 位 置 。 
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5.3 ”离散 趋势 的 分 析 


集中 趋势 只 是 数据 分 布 的 一 个 概括 性 度量 ， 它 反映 的 是 各 变量 值 向 中 心 值 聚 集 的 程度 。 而 变 
量 的 分 散 程度 如 何 度量 呢 ? 分 散 程度 ， 即 各 观测 值 远离 中 心 值 的 程度 ， 也 称 为 “ 离 中 趋势 "。 离 
散 程度 越 小 ， 数 据 的 代表 性 就 越 好 。 


5.3.1 ”离散 趋势 的 测度 


数据 分 布 的 离散 程度 主要 靠 极 差 、 四 分 差 、 平 均 差 、 方 差 、 标 准 差 等 统计 指标 来 度量 。 在 实 
际 分 析 中 ， 离 散 程度 分 析 主 要 有 以 下 作用 : 
衡量 平均 指标 的 代表 性 ; 
反映 社会 经 济 活 动 的 均衡 性 ; 
研究 总 体 标志 值 分 布 偏离 正 态 的 情况 ; 
抽样 推断 等 统计 分 析 的 一 个 基本 指标 。 


(1) 极 差 


首先 从 最 简单 的 统计 量 入 手 ， 极 差 是 描述 数据 离散 程度 最 简单 的 测度 值 ， 是 样本 数据 中 两 个 
极端 值 之 差 ， 也 称 为 全 距 。 数 据 越 分 散 ， 极 差 越 大 。 


R= 


mn 


极 差 计 算 简单 又 容易 理解 ， 但 它 只 是 利用 了 数据 两 端的 信息 ， 容 易 受 极端 值 的 影响 ， 并 且 没 
有 充分 利用 数列 的 信息 。 


(2) 四 分 位 差 


数据 的 四 分 位 差 是 两 个 四 分 位 点 之 差 ， 反映 了 中 间 50% 数 据 的 离散 程度 ， 其 数值 越 小 ， 说 明 
中 间 的 数据 越 集中 。 


Q, = 0, 一 0,，0Q, 和, 分别 表示 上 下 四 分 位 数 
虽然 四 分 位 差 避免 了 极端 数据 的 影响 ， 但 “ 拘 头 去 尾 ” 后 仍然 丢失 很 多 信息 。 


(3) 方差 与 标准 差 


描述 离散 程度 ， 最 常用 的 指标 是 方差 和 标准 差 ， 它 们 利用 了 样本 的 全 部 信息 去 描述 数据 取 值 
分 散 性 。 方 差 是 各 样本 相对 均值 的 偏差 平方 和 的 平均 ， 即 


1 < = 
§:=— > x-x) 
pT ae 


方差 的 平方 根 ， 称 为 标准 差 。 与 方差 不 同 的 是 ， 标 准 差 是 具有 量 纲 的 ， 它 与 变量 值 的 计量 单 
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位 相同 ， 因 此 具有 较 强 的 实际 意义 ， 在 实际 分 析 中 会 比较 常用 。 
un i es 
三 i xX) 
(4) 变异 系数 


一 组 数据 的 标准 差 与 相应 平均 数 之 比 ， 称 为 变异 系数 ， 也 叫做 离散 系数 。 它 是 刻画 数据 相对 
分 散 性 的 一 种 度量 ， 记 为 CV。 既然 是 “相对 ”， 说 明 它 去 除了 单位 的 影响 ， 因 此 是 个 无 量 纲 的 统 
计量 ， 用 百分数 表示 。 在 实际 应 用 中 可 以 消除 由 于 不 同 计量 单 位 、 不 同 平均 水 平 所 产生 的 影响 。 


CV =100x2(%) 
XX 


5.3.2 ”R 语言 实现 
可 以 通过 函数 rangeO 计 算 极 差 。 给 出 最 小 值 和 最 大 值 两 个 点 ， 再 相 减 得 到 。 


> m=range (price);m[2]-m[1] 
[1] 60.34 

>max (price) -min (price) 

[1] 60.34 


四 分 位 差 同样 需要 手动 计算 ， 比 较 便 捷 的 方法 是 直接 使 用 函数 fivenum()。 
> q=fivenum(price);q[4]-q[2] 
ES 


R 中 的 方差 函数 和 标准 差 函数 分 别 是 var0 和 sd0， 非 常 简单 。 还 可 以 手动 输入 公式 ， 计 算 验 
站;。 
Var (X，Y = NULL, na.rm = FALSE, use) 
sd(x, na.rm = FALSE) 
>var (price) ;sd (price) 
[1] 138.7829 
fd] 11.78061 
>sqrt((sum(price’*2)- (sum(price)) “2/1length (price))/ (length (price) -1)) 


i 2 7806 
除了 上 面 几 个 最 常用 的 离散 趋势 统计 量 外 ，R 还 有 一 个 比较 特殊 的 函数 ， 即 离 差 mad0， 它 
用 于 计算 中 位 数 绝对 偏差 ， 具 有 渐 近 正 态 的 一 致 性 。 


mad (x, center = median (x), constant = 1.4826, na.rm = FALSE, low = FALSE, high = FALSE) 


其 中 的 参数 center 可 选 ， 默 认为 中 位 数 ， 即 计算 样本 偏离 中 位 数 的 程度 ，constant 是 比例 因 
子 ， 默 认为 一 个 常数 ; 参数 low/high 默认 取 值 为 FALSE, 若是 TRUE, 表示 对 于 偶数 个 样本 数据 ， 
中 位 数 不 取 两 个 中 间 值 的 平均 ， 而 是 采用 较 小 /大 的 那 一 个 。 在 默认 状态 下 ，R 中 离 差 的 计算 公式 
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相当 于 
mad =1.4826x median(abs(x — median(x))) 


其 中 系数 1.4826 约 等 于 1/qnorm(3/4)， 这 样 离 差 mad0 在 估计 方差 时 才 具 有 渐 近 正 态 的 一 致 
性 。 


>mad (price) 
£11 7.813302 


5.4 数据 的 分 布 分 析 


5.4.1 分 布 情况 的 测度 


仅 通 过 集中 趋势 和 离散 趋势 两 个 指标 ， 仍 无 法 判断 数据 的 分 布 形态 。 数 据 比较 集中 的 区 域 在 
分 布 图 上 就 会 形成 一 个 “ 峰 ” 这 个 “ 峰 ” 可 能 偏 左 ， 也 可 能 偏 右 ， 峰 值 可 能 较 高 ， 也 可 能 较 低 ， 
这 时 就 需要 用 到 偏 态 (Skewness) 和 峰 度 (Kurtosis) 两 个 统计 方法 对 数据 分 布 特征 作 进 一 步 描 述 。 


(1) 偏 度 


前 面 提 到 ， 通 过 均值 和 平均 数 、 众 数 之 间 的 关系 可 以 大 致 判断 出 数据 点 分 布 状态 是 对 称 、 左 
偏 还 是 右 偏 。 显 然 ， 判 断 偏 斜 方向 并 不 难 ， 但 要 判断 偏 斜 的 程度 却 需要 更 精确 的 测度 ， 即 偏 度 系 
数 。 样 本 的 偏 度 系数 记 为 SK， 计 算 公式 为 


n 两 
ee 2)5 nN —1)(n—2)s’ 
其 中 ，s 是 标准 差 ，j4 是 样本 的 3 阶 中 心 矩 。 
具体 的 判断 方法 是 : 如 果 样 本 的 偏 度 系数 SK=0， 则 说 明 数 据 关于 均值 对 称 ; 当 SK<0 时 ， 样 


本 是 左 偏 分 布 (Negative Skew); 当 SK>0 时 , 表示 正 偏离 程度 较 大 , 说 明 样 本 是 右 偏 分 布 (Positive 
Skew)， 如 图 5.2 所 示 。 





图 5.2” 偏 态 分 布 
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(2) 峰 度 


偏 度 系数 判断 尖峰 在 水 平方 向 上 往 哪 边 偏 移 ， 可 以 说 它 是 从 横向 的 角度 描述 分 布 特点 ， 那 么 
从 纵向 的 角度 , 描述 数据 分 布 的 平坦 或 尖峰 程度 〈 称 为 峰 态 )， 就 要 通过 峰 度 系数 来 衡量 。 记 为 K。 


m (n+ Dp (n-1) 


-Dn-2)n—3)s ~ (n—2)n—3) 


其 中 ， 人 是 样本 4 阶 中 心 矩 ，y4 是 样本 标准 差 的 四 次 方 。 对 于 分 组 数据 ,利用 组 中 值 M; 计 
算 峰 度 系数 ， 上 大 代表 组 内 的 频数 。 


庆 (4A4， —x)*f 


K=2 一 3 
ns 


峰 态 通 常 是 与 标准 正 态 分 布 相 比 较 而 言 的 ， 如 果 一 组 数据 服从 标准 正 态 分 布 ， 则 峰 度 系数 
K=0; 当 分 布 比 正 态 更 加 尖峰 时 ，K>0; 当 分 布 比较 扁平 时 ，K<0。 如 图 5.3 所 示 ， 当 K>0 时 ,分 
布 为 尖峰 形状 ， 因 此 分 布 两 侧 的 尾部 数据 较 少 〈Thin tails); 而 K<0 时 ， 分 布 的 峰值 较 低 ， 造 成 
尾部 较 厚 (Fat tails)。 


Probability density function 


Fat tails 
(K<0) 





图 5.3” 峰 态 分 布 
5.4.2 RR 语言 实现 


在 程序 包 timeDate 中 (或 直接 加 载 fBasics 程序 包 )， 有 直接 计算 偏 度 和 峰 度 系数 的 函数 ， 为 
skewness() 和 kurtosis()。 


也 可 以 自己 写 一 个 函数 function0 进 行 验证 ， 由 于 计算 方法 上 的 一 些 差别 ,两 种 方法 计算 的 结 
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果 有 出 入 ， 但 不 影响 对 样本 分 布 形 态 的 判断 。 
>library (timeDate) # 加 载 程序 包 
>skewness (price) # 计 算 偏 度 系数 
[1 1.:683351 
attr (, "method") 

[1] "moment" 

> SK=function (x) { 

+ n=length (x) ;m=mean (x) 

+ C=n/((n-1)*(n-2))*sum( (x-m)^3)/ (sd(x))^3;C 
>SK (price) # 手 动 计算 偏 度 系数 

[1] 1.686996 


>kurtosis (price) 

[1 2878657 

attr (, "method") 

[1] "excess" 

> K=function (x){ 

+ n=length (x) ;m=mean (x);s=sd (x) 
+ Gg2=( (ax (nt1i)}/{(n=1)*(n-2)* (n=-3))*sum( (x-m) 4)/s*4=(3* (n=-1)^2)/( (A-2)* (n=-3)}) 
+" _g2 

ue 

>K (price) 

[1] 2.600382 


偏 度 系数 SK=1.687>0， 说明 样 本 是 右 偏 分 布 ， 并 且 右 偏 程度 比较 严重 。 峰 度 系数 K= 2.60>0， 
说 明 分 布 比 正 态 更 尖峰 。 


5.5 图形 分 析 及 R 实现 


电影 《 达 芬 奇 密码 》 中 有 这 样 一 句 话 : “A picture says more than a thousand words!” 意 思 是 ， 
利用 图 形 描述 数据 规律 一 目 了 然 ， 胜 过 千言 万 语 。 图 形 显示 的 结果 可 以 直观 地 概括 上 述 指标 所 反 
映 的 分 布 特点 ， 对 于 一 组 数据 的 描述 ， 主 要 通过 直方 图 、 茎 叶 图 等 。 


5.5.1 直方 图 和 密度 函数 图 


获得 了 一 组 样本 数据 ， 我 们 最 直接 的 想法 是 通过 频率 分 布 直方 图 观察 其 样本 的 分 布 ， 常 与 直 
方 图 配套 出 现 的 是 核 密 度 估 计 函 数 density0， 它 可 以 根据 已 知 样 本 ， 去 估计 样本 的 密度 函数 曲线 。 
结合 直方 图 和 密度 估计 曲线 , 可 以 得 到 和 统计 指标 所 反映 的 相似 结论 : 样本 呈现 严重 的 右 偏 分 布 ， 
右 尾 拖 得 很 长 ， 数 据 有 一 较 高 的 峰值 。 


>hist (price,breaks=50,prob=T) # 参 数 breaks 设置 直方 图 的 组 距 ，prob=T 规定 绘制 密度 直方 图 
>lines (density(price) ,col="blue") # 利 用 核 密度 估计 函数 density() ， 绘 制 密度 曲线 图 
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绘制 结果 如 图 5.4 所 示 。 


Hisgogram of price 


Density 





price 
图 5.4 直方 图 和 密度 函数 曲线 
5.5.2 QQ 图 


QQ 图 用 于 直观 验证 一 组 数据 是 否 来 自 某 个 分 布 ， 或 者 验证 某 两 组 数据 是 否 来 自 同 一 族 的 分 
布 。 在 教学 和 软件 中 常用 QQ 散 点 图 来 检验 数据 是 否 来 自 于 正 态 分 布 。 假 定 总 体 为 正 态 分 布 
N(14,0”)， 对 于 样本 x,X,，,…,X, ， 其 顺序 统计 量 为 xbxoa，… xm。 下 (xz) 是 标准 正 态 分 布 
N(0,1) 的 分 布 函数 ， 而 中 (x) 是 其 反 函 数 ，QQ 图 即 是 由 以 下 的 点 构成 的 散 点 图 : 


Ce 
n 


QQ 图 是 正 态 分 位 数 -分 位 数 图 ， 横 轴 是 理论 值 ， 纵 轴 是 样本 值 ， 若 样本 数据 近似 服从 正 态 分 
布 ， 那么 QQ 图 上 的 散 点 应 均匀 地 分 布 在 直线 》= OX 十 附近， 这 条 直线 的 斜率 是 正 态 分布 的 
标准 差 0 ， 截 距 是 均值 w 。 


R 软件 中 的 函数 qqnorm0 和 qqlineO 可 以 分 别 用 于 绘制 正 态 QQ 散 点 图 和 相应 直线 , 其 使 用 方 
法 为 : 

qqnorml(y, ylim, main="Normal Q-Q Plot", xlab="Theoretical Quantiles", 

ylab="Sample Quantiles", plot.it = TRUE, datax = FALSE, ...) 

qqline(y, datax = FALSE, distribution = qnorm, probs = c(0.25, 0.75), qtype = 7, ...) 


gqqplot (x, y, plot.it = TRUE, xlab = deparse (substitute (x)), ylab = 
deparse (substitute(y)), ...) 


其 中 x,y 为 数据 样本 ，xlab,ylab 和 main 是 图 标签 ， 分 别 用 于 设置 X 轴 和 YY 轴 的 标签 、 图 像 
标题 。 其 它 参数 用 法 参见 第 四 章 plot0 的 参数 设置。 
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对 股票 价格 样本 绘制 qq 散 点 图 和 曲线 图 ， 判 断 它 是 否 来 自 于 正 态 总 体 。 


> qqnorm (Price) 
> qqline (price) 


绘制 结果 如 图 5.5 所 示 。 


Normal Q-Q Plot 


Sample Quantiles 





Theoretical Quantiles 
图 5.5 股票 价格 的 正 态 QQ 图 
从 图 5.5 可 以 看 出 ，QQ 散 点 图 并 不 均匀 地 分 布 在 直线 两 侧 ， 因 此 股价 样本 不 服从 正 态 分 布 。 
接 下 来 举 一 个 正 态 分 布 样本 的 示例 。 


> B66(21 .021.4722.5721.6,1956;520.6;20..3719.27520.2721 3) 
> gqqnorm(a) ;qqline (a) 


绘制 结果 如 图 5.6 所 示 。 
Normal Q-Q Plot 


Sample Quantiles 
21.07 -22:5 


19.5 





-15 -10 -05 00 0.5 1.0 1.5 


Theoretical Quantiles 


图 5.6 正 态 QQ 图 
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从 图 5.6 可 以 看 出 ， 样 本 数据 是 来 自 于 正 态 总 体 。 
5.5.3 ” 茎 叶 图 

茎 叶 图 也 是 考察 样本 分 布 的 重要 方法 ， 由 统计 学 家 约翰 。 托 奇 设计 。 它 是 将 数组 中 的 数 按 位 
数 进行 比较 ， 将 数 的 大 小 基本 不 变 或 变化 不 大 的 位 作为 一 个 “ 茎 ”， 将 位 变化 大 的 数 作 为 “ 叶 ?” 
列 在 茎 的 后 面 ， 这 样 就 可 以 清楚 地 看 到 每 个 茎 后面 有 多 少 样本 数 ， 以 及 具体 数值 是 多 少 。 

茎 叶 图 更 适用 于 描述 样本 量 较 小 的 分 布 ， 在 本 例 中 ， 股 票 价格 样本 有 傅 千 个 ， 茎 叶 图 不 能 完 
全 显示 ， 所 以 抽取 其 中 的 50 个 样本 作 图 ，R 中 用 函数 stem(O) 绘 制 茎 叶 图 。 

stem(x, scale = 1, width = 80, atom = le-08) 

其 中 ，x 是 数据 向 量 ，scale 控制 茎 叶 图 的 长 度 ，width 控制 绘图 的 宽度 ，atom 是 容 差 。 


>set.seed(111) # 设 置 抽 样 种 子 
>s=sample (price, 50) # 从 数据 集 price 中 抽取 50 个 样本 





> stem(s) 
结果 如 下 所 示 : 
The decimal point is 1 digit(s) to the right of the | 
1 
. 5888999999999 
2 | 01112223334444 
2 555556788889 
3 022 
3 | 788 
4 i 
4 8 
5 | 3 
5 | 69 


在 上 面 的 结果 中 ， 左 边 的 “ 茎 ”是 股价 的 十 位 数字 ， 右 边 的 “ 叶 ” 是 个 位 数字 。 茎 叶 图 从 外 
观 上 来 讲 ， 比 较 像 是 横 放 的 直方 图 ， 我 们 所 抽取 的 样本 也 是 一 个 右 偏 分 布 。“ 叶 ”的 每 一 个 数字 
都 代表 一 个 样本 ， 显 示 频 数 的 个 数 ， 所 以 从 上 向 下 数 第 25、26 个 数字 的 平均 可 以 体现 样本 中 位 
数 的 值 。 


5.5.4 ” 箱 线 图 


箱 线 图 在 描述 统计 中 也 是 非常 重要 的 图 形 , 可 以 说 它 的 重要 程度 不 亚 于 直方 图 。 箱 线 图 是 “五 
数 ” 的 一 个 图 形 概 括 ， 可 以 用 来 对 数据 分 布 的 形状 进行 大 致 判断 ， 是 直观 展现 数据 分 布 主 要 特征 
的 方式 。 在 上 一 章 已 经 介绍 过 ，R 中 使 用 函数 boxplot0 绘 制 箱 线 图 。 


函数 boxplot0 有 三 种 使 用 方法 ， 第 一 种 最 为 直观 和 简单 ， 因 此 也 最 常用 : 
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Boxplet (XxX; ...) 
其 中 ，x 是 数值 型 向 量 、 列 表 或 数据 框 。 第 二 种 形式 为 : 
boxplot (formula data = NULL, ..., subset, na.action = NULL) 


formula 是 公式 ， 形 如 y~gIrp; 这 里 Y 是 数值 型 向 量 ， 而 grp 通常 为 因子 ， 用 来 表示 数据 的 分 


组 ， 这 种 形式 的 绘图 结果 是 分 类 的 箱 线 图 ， 便 于 比较 。 第 三 种 形式 比较 复杂 : 
boxplot (x, ..., range = 1.5, width = NULL, varwidth = FALSE, notch = FALSE, outline 
= TRUE, 


names, plot = TRUE, border = par("fg"), col = NULL, log = "" 

pars = list(boxwex = 0.8, staplewex = 0.5, outwex = 0.5), 

horizontal = FALSE, add = FALSE, at = NULL) 

其 中 ，x 是 数值 型 变量 、 列 表 或 数据 框 ; range 是 “触须 ”的 范围 ， 默 认 值 为 1.5; notch 是 逻 
辑 变 量 ， 默 认 值 FALSE 表示 绘制 的 箱 线 图 不 带 有 切口 ，outline 也 是 逻辑 变量 ， 默 认 值 为 TRUE， 
即 标明 异常 值 点 ; col 用 于 设置 不 同 颜色 〈 根 据 不 同 的 数值 ); horizontal 是 逻辑 变量 ， 默 认 值 为 
FALSE， 设 置 成 TRUE 时 将 箱 线 图 绘制 成 水 平 状 。 


要 绘制 出 本 章 股 票 价格 样本 的 箱 线 图 ， 在 R 中 输入 如 下 指令 : 


> boxplot (price,main="Boxplot of price") 


绘制 结果 如 图 5.7 所 示 。 

Boxplot of price 
OO 
Les 
Q ' 
| 
一 一 
CNE 


Eee 


图 5.7 股票 价格 的 箱 线 图 

在 图 5.7 的 箱 线 图 中 ，75% 和 25% 四 分 位 数 分 别 为 中 间 箱 体 的 上 下 两 条 线 ， 箱 体 中 间 的 粗 线 
段 是 中 位 数 M。 所 在 的 位 置 。 箱 体外 的 两 条 线 是 数据 的 最 大 值 和 最 小 值 , 但 不 得 超过 1.5 倍 四 分 位 
数 间距 ， 若 是 超出 了 则 标记 为 异常 值 点 ， 用 “o” 表 示 。 


在 本 例 中 ， 股 价 分 布 的 右 尾 很 长 ， 因 此 就 出 现 了 较 多 的 异常 值 点 ， 这 是 在 实际 数据 分 析 中 很 
有 可 能 出 现 的 情况 。 
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5.5.5 ”经 验 分 布 图 


直方 图 主要 适用 于 总 体 为 连续 分 布 的 样本 。 对 于 更 一 般 的 总 体 分 布 , 如 果 要 估计 其 分 布 函数 ， 
可 以 使 用 经 验 分 布 函数 (edf)。 在 R 中 函数 ecdf0) 给 出 样本 的 经 验 分 布 ， 通 过 plotO 绘 制 。 

ecdf (x) 

plot (x, ..., ylab="Fn (x)", verticals = FALSE,col.0lline = "gray70", pch = 19) 

通过 ecdf0) 生 成 经 验 分 布 函数 所 (Xx) 在 各 样本 点 的 值 ， 是 一 个 数值 型 向 量 ; plotO0 中 的 verticals 
是 逻辑 变量 ， 若 为 TRUE 表示 画 出 竖 线 ， 默 认 是 不 画 竖 线 。 

>plot (ecdf (Price) ,main="empirical cdf",xlab="price",ylab="Fn (Price)") 

> x=min (price) :max (price) 

> lines (x, pnorm (x, mean (price) ,sd (price)),col="red") # 正 态 分布 函 数 曲线 

> legend (60,0.4,1legend=c ("样本 分 布 "," 正 态 分 布 ") , Ity=1, col=1 :2) 


绘制 结果 如 图 5.8 所 示 。 


empirical cdf 


Fn(price) 
00 02 04 06 08 10 





price 


图 5.8 经 验 分 布 图 


5.6 多 组 数据 分 析 及 R 实现 


5.6.1 多 组 数据 的 统计 分 析 


当 数 据 分 为 多 个 组 别 时 ， 其 描述 统计 与 单 组 数据 有 相通 之 处 ， 但 在 体现 变量 关系 方面 还 是 有 
一 定 差别 的 。 上 文中 使 用 的 例子 是 一 组 数据 ， 假 设 按照 年 份 将 之 分 组 ， 重 新 读 入 2009、2010 和 
2011 这 三 年 的 完整 数据 ， 在 前 面 的 理论 基础 上 ， 对 三 组 数据 进行 描述 性 统计 分 析 。 由 于 每 年 的 交 
易 日 不 完全 相同 ， 为 简单 处 理 ， 把 有 缺失 值 的 样本 删 去 。 

> group=read.csv("d:/data/09-11 股价 .csv") 

> group=na.omit (group) # 和 忽略 缺失 样本 


首先 ， 与 单 组 情形 类 似 ， 直 接 使 用 summary0 可 以 得 到 各 组 数据 的 均值 和 “五 数 ”。 通 过 观察 
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横向 数据 ， 我 们 可 以 对 比 不 同年 份 股票 价格 的 基本 统计 量 。 以 均值 为 例 ， 它 反映 出 股票 价格 的 平 
均 水 平 是 逐年 下 降 的 。 


>summary (group) 


Price09 Pricel0 Pricell 
Min. :18.67 Min. :20.90 Min. :14.74 
Ist Qu. :23.08 lst Qu. 23.25 lst Qu. :16.98 
Median :27.45 Median :24.70 Median “L333 
Mean :26.51 Mean :25.20 Mean lB 
3rd Qu. 29.96 3rd Da。 327.40 3rd Qu. 21.05 
Max. :34.01 Max. :31.42 Max. 22233 


函数 var0 应 用 在 多 组 数据 上 ， 得 到 的 计算 结果 是 一 个 协 方差 阵 ， 其 每 个 元 素 是 各 个 向 量 之 间 
的 协 方差 。 使 用 指令 cor(group) 也 得 到 相同 结果 。 
> options (digits=3) # 井 设置 显示 格式 : 数字 只 显示 3 位 
>var (group) 
Price09 Pricel0 Pricell 
Price09 16.55 -7.18 -6.75 
Pricel0 -7.18 5.99 4.16 
Pricell -6.75 4.16 4.84 


协 方差 的 大 小 在 一 定 程度 上 反映 了 变量 之 间 的 相互 关系 ， 但 它 还 受 变量 本 身 度 量 单位 的 影 
响 ， 因 此 我 们 还 要 计算 相关 系数 来 度量 变量 之 间 的 线性 相关 程度 。 在 R 中 使 用 函数 cor0) 计 算 相 关 
系数 矩阵 。 


cor(x, y = NULL, use = "everything",method = c("pearson", "kendall", "spearman")) 


其 中 ，x,y 是 计算 的 对 象 ， 当 x 是 一 个 数据 框 或 列表 时 y 可 以 省 略 ; use 指定 如 何 处 理 缺 失 样 
本 ; method 给 出 计算 哪 一 种 相关 系数 : 默认 的 皮尔 逊 (Pearson) 系数 度量 线性 相关 性 ， 如 果 数 据 
呈现 的 不 是 线性 关系 ， 而 是 单调 的 ， 则 可 以 用 肯 德 尔 (Kendall) 或 斯 皮尔 曼 〈Spearman) 相关 系 
数 ， 它 们 描述 的 是 秩 相关 性 。 


本 例 中 没有 理论 基础 可 以 说 明 两 年 的 股价 会 呈 线 性 关系 ， 所 以 计算 Spearman 系数 。 


>cor (group, method="spearman") 

Price09 Pricel0 Pricell 
Price09 1.000 -0.687. .=0.710 
PicCeld -0.687 1000 ‘0.752 
Pricelil -0.710 0.752 1000 


在 上 面 的 矩阵 中 ， 对 角 线 都 是 1， 因 为 变量 与 自身 是 完全 相关 的 。 而 2009 年 股价 与 2010 年 
股价 的 相关 系数 是 一 0.687， 说 明 这 两 年 的 股票 价格 呈 负 相关 的 关系 。 


5.6.2 多 组 数据 的 图 形 分 析 
常用 的 图 形 表示 方法 大 多 用 于 一 维 数据 的 描述 ， 但 实际 问题 中 的 数据 集 往往 是 多 变量 样本 。 


104 ”数据 分 析 : R 语言 实战 


接 下 来 的 这 一 节 ， 将 介绍 在 实践 中 常用 的 多 组 数据 绘图 。 
(1) 二 维 散 点 图 


首先 ， 两 组 数据 的 关系 用 散 点 图 可 以 清楚 地 描述 。 在 散 点 图 中 加 入 一 条 拟 合 曲线 有 助 于 更 好 
地 把 握 变 量 关 系 。 


R 中 的 函数 lowess0) 可 通过 加 权 多 项 式 回归 对 散 点 图 进行 平滑 ， 拟 合 一 条 非 线 性 的 曲线 ， 但 
其 只 能 适用 于 二 维 情况 。 与 之 类 似 的 loess0 用 于 处 理 多 维 情况 。 


lowess(x, y = NULL, f = 2/3, iter = 3, delta = 0.01 * Qiff(zange(x) )) 


xy 指定 两 个 向 量 ; f 是 平滑 的 跨度 ， 值 越 大 ， 曲 线 的 平滑 程度 越 高 ，iter 控制 应 执行 的 迭代 
值 越 高 平滑 越 精确 ， 但 使 用 较 小 的 值 会 使 程序 跑 得 比较 快 。 


> attach (group)。 


其 


>plot (Pricel0~Price09,xlab="Price of 2009",ylab="Price of 2010") 
> lines (lowess (Price09, Price10) ,col="red", lwd=2)  # 拟 合 曲线 


绘制 结果 如 图 5.9 所 示 。 


Price of 2010 





Price of 2009 


图 5.9 两 变量 散 点 图 和 平滑 曲线 


从 散 点 图 中 可 以 看 出 ,2009 年 和 2010 年 的 股票 价格 并 不 是 完全 线性 的 关系 ,这 与 由 Spearman 
系数 得 出 的 结论 相同 ， 两 年 的 股价 具有 负 的 相关 性 ， 价 格 变动 趋势 相反 。 


(2) 等 高 线 图 


有 时 候 数 据 量 很 大 ， 散 点 图 上 的 数据 点 就 会 非常 集中 ， 不 容易 看 出 变量 的 关系 或 趋势 ， 这 就 
需要 借助 二 维 等 高 线 图 来 描述 。 首 先 利用 程序 包 MASS 中 的 函数 kde2d() 来 估计 出 二 维 数据 的 密 
度 函 数 ， 再 利用 函数 contour0 画 出 密度 的 等 高 线 图 。 如 果 不 想 画 出 图 上 的 数据 标签 ， 可 以 将 参数 
drawlabels=FALSE 去 掉 。 函 数 kde2d() 的 使 用 方法 如 下 : 
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kde2d (x, y, h, n = 25, lims = c(range(x), range (y))) 


其 中 xy 分 别 为 横 轴 和 纵 轴 的 数据 , n 指定 每 个 方向 上 的 网 格 点 数量 ， 可 以 是 标量 或 长 度 为 2 
的 一 个 正 数 向 量 ;参数 lims 表示 横 纵 轴 的 范围 。 


接 下 来 就 利用 上 述 的 两 个 函数 绘制 2009 年 和 2010 年 股价 的 二 维 等 高 线 图 。 在 R 中 输入 指令 : 
>library (MASS) 
> a=kde2d (Price09, Price10) 


>contour (a, col="blue",main="Contour plot",xlab="Price of 2009",ylab="Price of 2010") 
绘制 结果 如 图 5.10 所 示 。 


Contour plot 


Price of 2010 





Price of 2009 


图 5.10 ”两 变量 等 高 线 图 
与 地 理 上 的 等 高 线 地 形 图 相同 ， 即 等 高 线 越 靠近 内 部 说 明 密 度 越 高 ， 散 点 分 布 越 集中 。 
(3) 和 矩阵 散 点 图 


以 上 两 种 图 形 主要 描述 二 维 数据 , 实际 中 的 数据 集 往往 是 多 维 的 , 我 们 使 用 的 例子 也 是 一 样 ， 
多 组 数据 的 图 形 也 可 以 用 散 点 图 来 展示 ， 不 同 在 于 这 里 是 矩阵 散 点 图 。 对 于 一 个 数据 框 ，R 中 可 
以 直接 使 用 plotO 命 令 或 pairs0) 绘 制 矩阵 散 点 图 。 


在 R 中 输入 如 下 指令 来 绘制 2009 一 2011 年 多 组 股价 数据 的 矩阵 散 点 图 : 


>plot (group,main="Scatterplot Matrices") 
或 


>pairs (group) 


绘制 结果 如 图 5.11 所 示 。 








图 5.9 绘制 出 了 三 个 年 份 之 间 股 价 的 矩 阵 散 点 图 ， 其 中 上 三 角 与 下 三 角 的 三 幅 图 是 对 称 的 ， 
分 别 为 2009 一 2010、2010 一 2011、2009 一 2011 年 中 国人 寿 股 价 的 二 维 散 点 图 。 和 矩阵 散 点 图 的 特点 
主要 是 直观 简便 , 把 多 个 二 维 散 点 图 以 矩阵 的 形式 排列 , 也 有 助 于 比较 两 两 变量 之 间 的 相关 关系 。 
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Sctterplot Matrices 


2 .2425 28 30 





Pricell 


16 18 20 22 


16 68 20 22 





图 5.11 多 组 数据 的 矩阵 散 点 图 


(4) 矩阵 图 

在 处 理 多 组 数据 时 ， 常 将 各 组 数据 放 在 一 起 进行 比较 ，matplot0 可 将 各 变量 的 散 点 图 放 在 同 
一 个 绘图 区 域 中 。 

上 文 计 算 的 相关 系数 和 矩阵 反映 出 2009 年 和 2010 年 的 股价 成 负 相 关 ， 而 2010 年 2011 年 的 股 
价 则 变动 趋势 相同 ， 这 些 结论 从 图 5.10 中 也 可 以 得 到 ， 黑 色 曲 线 表 示 2009 年 股价 呈 上 升 趋势 ， 
而 2010 和 2011 年 股票 价格 则 整体 下 跌 ， 在 2011 年 更 是 创 出 了 历史 新 低 。 


>matplot (group, type="1",main="Matplot") #type=“1” 表 示 绘 制 曲 线 而 不 是 散 点 
> legend (0,35,1legend=2009:2011,pch=" 一 ", cex=0.6,col=1:3) #cex 指定 字体 大 小 


绘制 结果 如 图 5.12 所 示 。 
Matplot 


group 





图 5.12 多 组 数据 绘图 
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(5) 箱 线 图 

在 5.5.4 节 中 已 经 详细 介绍 过 箱 线 图 ， 函 数 boxplot() 也 可 以 用 于 多 组 数据 的 绘图 ， 在 同一 区 
域 中 画 出 各 变量 的 箱 线 图 ， 便 于 对 比 。 箱 线 图 的 好 处 在 于 可 以 同时 对 比 最 值 、 均 值 、 中 位 数 和 整 
体 分 布 情况 ， 尤 其 适用 于 时 间 序 列 的 对 比 ， 从 图 5.13 中 的 几 条 “ 线 ” 可 以 看 出 2011 年 的 股票 价 
格 从 最 大 值 、75% 分 位 点 到 中 位 数 、 最 小 值 等 都 低 于 2009 年 和 2010 年 ， 因 此 2011 年 的 股价 水 平 
整体 低 于 前 两 年 。 


>boxplot (group Cex .axis=0.6) 





Price09 Price10 Price11 


图 5.13 多 组 数据 箱 线 图 


(6) 星 图 (雷达 图 ) 
假设 变量 是 p 维 数据 ， 有 个 观测 值 ， 故 第 次 的 观测 值 写 作 向 量 形式 为 
X= (Xs Xe2s Xp) k=1,2,.…,n 
星 图 作为 一 种 多 元 数据 的 图 示 方 法 ， 可 以 对 p 维 数据 进行 比较 。 由 于 星 图 (如 图 5.14 所 示 ) 


看 起 来 很 像 雷 达 图 像 ， 因 此 也 称 为 雷达 图 ; 星 图 也 像 一 个 蜘蛛 网 ， 所 以 有 时 也 称 为 蜘蛛 图 。 其 绘 
制 原理 是 : 


(1) 作 一 个 圆 ， 并 将 圆周 p 等 分 。 
(2) 连接 圆心 和 圆周 上 的 p 个 分 点 , 把 这 p 条 半径 依次 视 为 变量 坐标 轴 ， 并 标 上 适当 的 刻度 。 


(3) 对 给 定 的 每 一 次 观测 值 ， 在 上 述 p 条 坐标 轴 上 分 别 标 出 p 个 变量 的 取 值 ， 然 后 将 它们 连 
接 成 一 个 p 边 形 ， 即 形成 了 一 个 “ 星 ”。 


(4) 对 n 次 观测 值 都 重复 (3) 的 步骤 ， 就 形成 了 nn 个 星 图 。 
R 中 的 函数 stars0 可 以 绘制 星 图 ， 其 使 用 方法 是 : 


stars(x, full = TRUE, scale = TRUE, radius = TRUE, labels = dimnames (x) [[1]]， 
locations = NULL, nrow = NULL, ncol = NULL, len = 1, 

key.loc = NULL, key.labels = dimnames (x) [[2]], key.xpd = TRUE, 

xlim = NULL, ylim = NULL, flip.labels = NULL, draw.segments = FALSE, 
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col.segments = l:n.seg, col.stars = NA, col.lines = NA, axes = FALSE, 


frame.plot = axes, main = NULL, sub = NULL, xlab = "", ylab = "", 
cex = 0.8, lwd = 0.25, lty = par("lty"), xpd = FALSE, 
mar = pmin(par("mar")y, .1.1+ c(2*axest+ (xlab, l= ""), 2*axes+ (ylabl = w"), LI 0)), 


add = FALSE, plot = TRUE, ».。) 


stars() 函 数 中 包括 很 多 的 参数 设置 ， 这 里 着 重 介绍 其 中 比较 重要 的 参数 ， 其 他 请 参考 help 文 
档 。 其 中 x 是 数据 矩阵 或 数据 框 ; full 是 逻辑 变量 , 默认 值 为 TRUE 表示 星 图 绘制 成 整 圆 的 , FALSE 
表示 星 图 绘制 成 上 半圆 的 图 形 ; scale 也 是 逻辑 变量 , 默认 值 TRUE 表示 数据 和 矩阵 的 每 一 列 是 独立 
的 ， 且 每 列 的 最 大 值 为 1， 最 小 值 为 0， 若 值 为 FALSE 则 所 有 的 星 图 会 谷 在 一 起 ，radius 是 逻辑 
变量 ， 默 认 值 为 TRUE， 表 示 画 出 构成 星 图 半径 的 连 线 ，FALSE 则 画 出 的 星 图 没有 半径 构成 的 连 
线 ; len 是 半径 刻度 因子 , 设置 星 图 的 比例 , 默认 值 为 1; key.loc 是 由 x 和 y 坐标 值 构成 的 向 量 ( 默 
认 值 为 1 )， 设 置 星 的 位 置 ，draw.segments 同样 是 逻辑 变量 ， 默 认 值 为 FALSE， 即 用 直线 连接 p 
个 半径 上 的 点 ， 若 为 TRUE 则 画 出 的 星 图 是 一 段 一 段 的 弧 。 


但 是 星 图 比较 适用 于 维度 较 低 的 数据 ， 方 便 比较 。 例 如 学 校 随机 抽取 6 名 学 生 的 5 门 考试 成 
绩 ， 如 表 5.2 所 示 ， 从 DD 盘 读 入 该 数据 集 ， 我 们 将 画 出 这 6 名 学 生成 绩 的 星 图 。 


表 5.2 学 生 考试 成 绩 





在 R 软件 中 输入 如 下 指令 : 


> score=read.table("d:/data/score.txt",header=T) # 读 入 数据 
> stars (score) # 绘 制 星 图 ， 所 有 参数 均 设 置 为 默认 值 


绘制 结果 如 图 5.14 所 示 。 


星 图 的 半径 反映 数值 的 大 小 ， 因 此 从 图 5.14 中 可 以 看 出 学 生 编号 1 和 6 的 成 绩 较 好 ， 而 第 5 
名 学 生成 绩 最 差 ， 第 2 名 其 次 。 


设置 函数 stars0 中 的 参数 ， 可 以 将 上 面 的 星 图 绘制 成 图 5.15 所 示 的 另 一 种 形式 。 在 R 中 输入 
指令 : 


> stars(score, full=FALSE, draw.segments=TRUE, key.1loc=c(5,0.5),mar=c (2,0,0,0)) 
#ful11=F 


# 表示 绘制 成 半圆 的 图 形 ，qraw.segments=T 表 示 画 出 弧 线 
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图 5.14 学 生成 绩 的 星 图 〈 形 式 1) 图 5.15 学 生成 绩 的 星 图 (形式 2) 


(7) 折线 图 


和 星 图 相 比 ， 折 线 图 是 一 种 更 加 直观 地 展示 多 维 图 形 的 方法 ， 但 同样 地 ， 折 线 图 比较 适用 于 
数据 量 较 小 的 数据 样本 。 


折线 图 由 以 下 步骤 绘制 而 成 ; 


(1) 在 直角 坐标 系 的 模 轴 上 取 p 个 点 ， 表 示 p 个 变量 ; 

(2) 对 每 一 次 观测 值 ，p 个 点 的 纵 坐标 即 表 示 变 量 的 取 值 ; 

(3) 连接 p 个 点 可 以 得 到 一 条 折线 ， 即 为 该 次 观测 值 的 折线 图 ; 

(4) 对 于 nn 次 观测 值 ， 均 重复 上 述 步 又 ， 即 可 得 到 n 次 观测 值 的 折线 图 。 


在 R 中 并 没有 现成 的 绘制 折线 图 的 函数 ,因此 需要 我 们 自行 编写 ,这 里 命名 为 函数 outline()。 
outline=function (x) { 
if (is.data.frame (x)==TRUE) 
x=as.matrix(x) # 若 X 为 数据 框 ， 则 先 转换 为 矩阵 形式 
m=nrow (X) ;n=ncol (XxX) # 提 取 x 的 行列 数 
plot(c(l,n),c (min (x) ,max (x) ) ,type="n", 
main="The outline graph of data",xlab="Number",ylab="Value") 
for{i in lm) 1 
lines (x[i,],col=i) 
} 
} 
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其 中 的 参数 x 是 数据 矩阵 或 数据 框 ， 函 数 的 运行 结果 是 n 次 观测 值 的 折线 图 。 例 如 对 上 面 学 
生成 绩 的 例子 绘制 折线 图 ， 则 应 在 R 中 输入 如 下 指令 : 


> outline (score) 


绘制 结果 如 图 5.16 所 示 。 


The outline graph of data 


Value 





Number 
图 5.16 学 生成 绩 的 折线 图 

从 图 5.16 中 可 以 看 出 , 越 是 靠近 图 形 上 方 的 学 生成 绩 越 好 。 本 节 仅 给 出 一 个 编写 函数 的 示例 ， 
若 样 本 量 较 多 , 编写 函数 时 应 在 绘图 中 加 入 样本 编号 。 这 种 折线 图 可 以 用 于 聚 类 分 析 的 初步 判断 。 

(8) 调和 曲线 图 

调和 曲线 图 是 D.F.Andrews 在 1972 年 提出 的 三 角 多 项 式 作 图 方法 ,所 以 又 称 为 三 角 多 项 式 图 ， 
其 思想 是 把 高 维 空间 中 的 一 个 样本 点 对 应 于 二 维 平面 上 的 一 条 曲线 。 

设 p 维 数据 X= (2 Xp) ， 对 应 的 曲线 是 

(= 地 二 sin({)+ x COs(1) + x sin(21) + xs Cos(21) +:** (—n gt<7n) 
上 式 中 ， 当 1 在 区 间 [ 一 7,T] 上 变化 时 ， 其 轨迹 是 一 条 曲线 。 


在 多 项 式 的 图 表示 中 ， 当 各 变量 的 数值 太 悬 殊 时 ， 最 好 先 标 准 化 后 再 作 图 。 这 种 图 对 聚 类 分 
析 帮 助 很 大 ， 如 果 选 择 聚 类 统计 量 为 距离 的 话 ， 则 同类 的 曲线 非常 靠近 拧 在 一 起 ， 不 同类 的 曲线 
相互 分 开 ， 非 常 直观 。 


调和 曲线 图 有 两 点 优良 数学 性 质 : 一 是 保持 线性 关系 ， 二 是 与 一 般 的 欧式 距离 之 间 的 关系 。 
第 一 点 从 上 面 的 公式 中 就 可 以 直观 得 到 结论 , 第 二 个 性 质 可 通过 计算 得 到 。 按照 一 般 常用 的 范式 ， 
定义 样本 x 和 y 之 间 的 距离 为 如 下 的 平方 积分 形式 


a =| £.D-£,0| dt 
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根据 三 角 函 数 积分 ， 通 过 运算 最 终 可 以 得 到 这 一 距离 与 欧 氏 距离 之 间 具 有 如 下 关系 : 
dy, =N0 
按照 上 式 的 描述 ， 我 们 可 以 在 R 中 自己 编写 调和 曲线 图 函数 unison()。 


unison=function (x) { 
if (is.data.frame (x)==TRUE) 
x=as .matrix(x) # 若 x 为 数据 框 ， 则 先 转 换 为 矩阵 形式 
t=seq(-pi, pi pi/30) # 设 置 t 的 变化 范围 
m=nrow (x); n=ncol (x)  # 提 取 x 的 行列 数 
f=array (0，c(m,length(t))) #f 贼 值 为 一 个 数组 
feor(ti in 1m) 
fli;]=x[iyl1]/sgqrt (2) 
or 3 4n. Brn)t 
if (j%$$%2==0) 
£f[1,]=fli;]+x [i jl]*ain(j/2*t) 
else 
£f[1,]=£[i;]+x [i; jj]*Gos (FS/%2*t) 
} 
} 


plot (c(-pi,pi),c (min(f),max(f)),type="n",main ="The Unison graph of 
Data", xlab="t", ylab="f (t) ") 


for(d An Tem Lines(ttrelirlcolsi) 


} 
其 中 ，x 是 数据 矩阵 或 数据 框 。 函 数 的 运行 结果 是 调和 曲线 图 〈 如 图 5.17 所 示 )。 


The Unison graph of Data 


AD 
100 200 300 


-100 0 





图 5.17 学生 成绩 的 调和 曲线 图 


图 5.17 虽然 不 能 用 于 判断 学 生成 绩 的 好 坏 , 但 这 种 调和 曲线 图 对 聚 类 分 析 有 很 大 帮助 ， 可 以 
用 于 初步 判断 ， 即 同类 的 曲线 会 聚集 在 一 起 ， 而 不 同类 的 曲线 则 会 拧 成 不 同 的 曲线 束 ， 比 较 直 观 。 


»O a 


参数 估计 及 R 实现 


上 一 章 介 绍 了 数据 的 描述 性 分 析 。 当 我 们 对 样本 的 分 布 有 了 大 致 了 解 后 ， 下 一 步 就 是 要 根据 
样本 去 推断 总 体 的 分 布 和 特征 ， 这 个 过 程 称 为 统计 推断 。 统 计 推断 是 与 数据 分 析 相 关 的 主要 推理 
形式 。 统 计 推 断 分 两 步 进行 : 参数 估计 和 假设 检验 。 

参数 估计 是 对 所 要 研究 的 总 体 参 数 ， 进 行 合 乎 数理 逻辑 的 推断 。 在 很 多 实际 分 析 中 ， 我 们 取 
得 样本 数据 后 ， 对 其 总 体 的 分 布 类 型 是 已 知 的， 但 具体 的 分 布 完全 由 所 含 参数 决定 ， 此 时 写 不 出 
确切 的 概率 密度 函数 ， 这 就 需要 对 未 知 的 参数 作 估计 。 


本 章 将 分 别 从 点 估计 和 正 态 总 体 的 区 间 估 计 ， 介 绍 如 何 运 用 R 中 的 函数 完成 运算 。 


6.1 点 估计 及 R 实现 


参数 估计 有 两 类 : 一 类 是 点 估计 ， 另 一 类 是 区 间 估 计 。 例 如 ， 一 批 产品 的 废品 率 为 92， 为 了 
估计 这 一 参数 ， 从 这 批 产品 中 随机 地 抽出 n 个 样本 作 检查 ， 以 卫 表 示 其 中 的 废品 个 数 ， 那 么 郊 / 
就 是 9 的 一 个 点 估计 。 

设 闫 , 半 ,,…, 半 ,为 总 体 广 的 样本 ， 总 体 的 分 布 函数 F(x;9) 形 式 已 知 ， 其 中 0 为 待 估 参 数 ， 
为 ; 交 …2 为 对 应 的 样本 观测 值 。 接 下 来 的 问题 就 是 构造 一 个 适当 的 统计 量 ， 用 样本 观测 值 来 估 
计 参 数 9 的 取 值 。 这 种 对 未 知 参 数 的 定点 估计 称 为 未 知 参数 的 点 估计 。 


6.1.1 和 矩 估 计 


根据 辛 钦 大 数 定律 和 强大 数 定理 ， 如 果 总 体 X 的 大 阶 矩 存在 ， 那 么 样本 的 大 阶 矩 依 概率 收敛 
于 总 体 丰 阶 矩 ， 样 本 抑 的 连续 函数 收敛 于 总 体 和 矩 的 连续 函数 ， 这 为 矩 估 计 方 法 提供 了 理论 支持 。 
英国 统计 学 家 K. Pearson 在 20 世纪 初 提出 ,以 相应 的 样本 甜 作为 总 体 各 阶 原点 矩 的 估计 量 , 即 算 
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估计 。 


首先 ， 做 参数 估计 时 需要 注意 原点 矩 的 存在 性 ， 只 有 保证 分 布 的 矩 存 在 我 们 才能 继续 矩 估 计 
方法 。 设 总 体 和 分 布 含 有 m 个 未 知 参数 9= (2,2…@) ， 根 据 分 布 函数 下 (029) 可 以 计算 出 总 体 
的 kk 阶 和 矩 ， 它们 都 是 0,0,…,0, 的 函数 ， 即 


E(X*)= f(0,0,,...,0,), i 
而 样本 的 大 阶 矩 是 


A, =-> xX, i 
i=1 


FO OO SEC")= a ey 
n 


j= 
解 方程 组 ， 从 而 可 以 得 到 关于 未 知 参数 的 解 
0; =O:(X,, Xs X,), i=1,2,...,m 
这 样 得 到 的 O = (1,0,,..….,0,) 就 是 总 体 真实 参数 的 矩 估 计 值 。 


由 于 不 同 分 布 造成 函数 三 形 态 各 异 ， 因 此 在 R 中 不 可 能 有 固定 的 R 程序 来 直接 得 到 和 矩 估 计 
结果 ， 只 能 利用 R 的 计算 功能 具体 问题 具体 分 析 。 这 里 首先 介绍 几 个 R 中 常用 的 解 方程 函数 ， 如 
表 6.1 所 示 。 

表 6.1 R 中 的 解 方程 函数 
程序 包 


求解 一 元 于) 广 Le 向 天 
失 定 1 个 《 非 线 性 ) 方程， 求解 1 不 


函 数 功 能 


在 一 个 区 间 内 求解 一 个 方程 的 多 个 根 rootSolve 


| 
人 用 Bar Bowein 步 长 求解 下 线 可 


其 中 BBsolve0 与 给 定 的 参数 初 值 有 关 , 在 实际 中 并 不 常用 , 因此 这 里 重点 介绍 前 两 个 函数 的 
使 用 方法 。 首 先是 解 一 次 方程 的 函数 uniroot(): 


uniroot(f, interval, ..., lower = minl(interval), upper = max (interval), 





f.lower = f(lower, ...), f.upper = f(upper, ...), 
tol = .Machine$dqouble.eps^0.25，maxiter = 1000) 


其 中 f 指 定 所 要 求解 方程 的 函数 ，interval 是 一 个 数值 向 量 ， 指 定 要 求解 的 根 的 区 间 范 围 ; 或 
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者 用 lower 和 upper 分 别 指定 区 间 的 两 个 端点 ; tol 表示 所 需 的 精度 《收敛 容忍 度 ); maxiter 为 最 
大 迭代 次 数 。 


如 果 遇 到 多 元 方程 的 求解 ， 就 需要 利用 rootSolve 包 的 函数 multiroot0 来 解 方程 组 。 multiroot() 
用 于 对 n 个 非 线性 方程 求解 二 个 根 ， 其 要 求 完 整 的 雅 可 比 矩 阵 ， 采 用 Newton-Raphson 方法 。 其 
调用 格式 为 : 


multiroot (f, start, maxiter = 100, rtol = le-6, atol = le-8, ctol = le-8, useFortran = TRUE,...) 


f 指 定 所 要 求解 的 函数 ， 由 于 使 用 的 是 牛顿 迭代 法 ， 因 而 必须 通过 start 给 定 根 的 初始 值 ， 其 
中 的 name 属性 还 可 以 标记 输出 变量 的 名 称 ; maxiter 是 允许 的 最 大 迭代 次 数 ，rtol 和 atol 分 别 为 
相对 误差 和 绝对 误差 ， 一 般 保持 默认 值 即 可 ; ctol 也 是 一 个 用 于 控制 迭代 次 数 的 标量 ， 如 果 两 次 
迭代 的 最 大 变化 值 小 于 ctol， 那 么 迭代 停止 ， 得 到 方程 组 的 根 。 


XX 


接 下 来 用 实例 来 说 明 在 R 中 求 矩 估计 的 方法 ， 由 于 样本 分 布 的 多 样 性 ， 甜 估计 必须 “具体 问 
题 具 体 分 析 ”， 并 没有 一 个 固定 的 求解 套路 。 


例如 ， 已 知 某 种 保险 产品 在 一 个 保单 年 度 内 的 损失 情况 如 表 6.2 所 示 ， 其 中 给 出 了 不 同 损失 
次 数 下 的 保单 数 ， 我 们 对 损失 次 数 的 分 布 进行 估计 。 已 知 分 布 类 型 是 泊 松 〈Poisson)， 其 样本 均 
值 即 为 参数 4 的 矩 估计 。 


已 CZ)=4= 达 


表 6.2 损失 次 数 数据 
损失 次 数 EDEN ERD EL Ea 
保单 数 

>num=c (rep (0:5,c(1532,581,179, 41,10,4))) # 用 rep() 函数 生成 样本 ， 样 本 值 有 0~5 的 数字 构成 ， 
函数 中 的 第 二 个 向 量 对 应 表示 每 个 数字 的 重复 次 数 
>lambda=mean (num) 


>lambda 
[El Qu478097. 


根据 估计 的 参数 值 ， 我 们 可 以 画图 比较 损失 次 数 的 估计 值 和 样本 值 之 间 的 差别 。 

> k=0:5 

>ppois=dpois (k, lambda) 

>poisnum=ppois*length (num) # 由 Poisson 分 布 生成 的 损失 次 数 

> plot (k, poisnum, ylim=c (0,1600)) # 通 图 比较 ， 为 图 形 效果 更 好 ， 用 参数 ylim 设置 纵 轴 的 范围 ， 最 
小 值 为 0， 最 大 值 要 大 于 样本 的 最 值 ， 选 取 1600 

>samplenum=as .vector (table (num) ) # 样 本 的 损失 次 数 

>points (k, samplenum, type="p",col=2) 

>legend (4,1000,1legend=c ("num", "poisson"),col=1:2,pch="o") 


0 | 
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绘制 结果 如 图 6.1 所 示 。 


poisnum 
500 1000 1500 


0 





图 6.1 损失 次 数 的 矩 估 计 


泊 松 分 布 只 包含 一 个 参数 值 ， 所 以 只 需要 一 阶 矩 〈 即 均值 ) 就 可 以 完成 估计 。 参 数 的 个 数 与 
需要 的 阶 数 是 对 应 的 ， 例 如 随机 变量 半 服 从 [0, 驴 ] 的 均匀 分 布 ， 现 有 nn 个 样本 x = (2 ) ， 
为 了 估计 外 , 色 ， 利 用 分 布 的 一 阶 原点 矩 估 计 均 值 ， 加 上 二 阶 中 心 矩 估计 方差 


QO+@ 一 
2 


E(X)= x 


防区 = 迎 Ee IDG 一 区 = 时 


涉及 多 个 参数 的 矩 估计 问题 ， 解 方程 组 是 最 大 的 难点 ， 这 时 我 们 需要 开发 R 的 计算 功能 ， 前 
面 提 到 rootSolve 包 的 函数 multirootO 用 于 解 方程 组 。 在 R 中 使 用 它 时 我 们 要 注意 ，multiroot0 求 
解 的 是 函数 值 为 0 时 方程 组 的 根 ， 所 以 编写 函数 function 时 要 注意 减 去 样本 均值 /方差 。 


下 面 以 均匀 分 布 样本 x 为 例 具 体 说 明 。 
>install .packages ("rootSolve") 
> Xo Sr LS dS BO 30 8 2 Lr 2) 
> ml=mean (x) # 样 本 均值 
> m2=var (x) # 样 本 方差 
>model=function (x,ml,m2){ 
+ cl(fl=x[1]+x[2] -2*ml, 
必 £f2= (x[2]~x[1])^2/12-m2) 
水 中 
>library (rootSolve) 
>multiroot (f=model, start=c (0,10) ,ml=m]l ,m2=m2) 
$root 
[1] -0.7523918 10 .2523918 
$f.root 
EL £2 
-5.15321le-12 1.121688e-09 
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$iter 

[1] 4 
$estim.precis 
[1] 5.634204e-10 


第 一 行 给 出 的 结果 即 均匀 分 布 的 两 个 参数 值 [-0.75, 10.25]。 


rootSolve 在 解 一 些 较 复杂 的 方程 组 时 十 分 方便 ， 本 例 中 的 均匀 分 布 比 较 简单 ， 解 方程 组 是 可 
以 得 到 解析 解 的 ， 所 以 其 可 帮助 我 们 验证 上 述 代码 计算 的 结果 。 


0 =x—V35 
0 =xt/38 


> ml-sqgqrt (3*m2) ;ml+sqrt (3*m2) 
[1] -0;7523918 
[21 L1025239 


6.1.2 极 大 似 然 估计 


极 大 似 然 估 计 法 于 1912 年 由 英国 统计 学 家 R.A.Fisher 提出 ， 其 建立 在 德国 数学 家 C.F.Gauss 
的 理论 基础 上 ， 具 有 很 多 优良 的 性 质 。 极 大 似 然 估 计 利 用 样本 分 布 密度 构造 似 然 函 数 来 求 出 参数 
的 估计 值 ， 相 比 矩 估计 更 加 充分 利用 了 样本 信息 ， 因 此 是 目前 应 用 非常 广泛 的 参数 估计 方法 。 


为 了 形象 地 说 明 极 大 似 然 原 理 ， 首 先 举 一 个 例子 。 一 个 常年 打猎 的 猎人 和 一 个 “菜鸟 ”一 起 
外 出 打 猫 ， 发 现 一 只 猎物 从 前 方 帘 过 ， 只 昕 一 声 枪 响 ， 猫 物 应 声 倒 下 ， 如 果 我 们 要 推测 命中 的 子 
弹 是 谁 打 的 ? 最 直观 的 思路 就 是 ， 只 需 一 枪 便 打 中 猎物 ， 由 于 猎人 命中 的 概率 肯定 大 于 菜鸟 ， 那 
么 这 一 枪 多 半 是 猎人 射 中 的 。 

类 似 的 道理 ， 在 概率 论 中 我 们 常常 要 处 理 “ 小 球 ” 问 题 : 设 甲 箱 中 有 99 个 白 球 ，1 个 黑 球 ; 乙 
箱 中 有 1 个 白 球 ，99 个 黑 球 。 现 随机 选取 一 箱 ， 再 从 中 随机 抽取 一 个 小 球 ， 结 果 是 黑 球 ， 由 于 乙 箱 
中 99% 都 是 黑 球 ， 所 以 我 们 自然 更 多 地 相信 这 个 黑 球 是 取 自 乙 箱 的 。 所 以 说 ， 极 大 似 然 估计 法 就 是 
要 选取 这 样 的 数值 作为 参数 的 估计 值 ， 使 所 选取 的 样本 在 被 选 的 总 体 中 出 现 的 可 能 性 为 最 大 。 

极 大 似 然 估 计 既 适用 于 离散 分 布 ， 也 适用 于 连续 分 布 ， 不 同 之 处 仅 在 于 离散 型 随机 变量 使 用 
的 函数 是 分 布 律 p(x|0), 连续 分 布 使 用 概率 密度 函数 了 (x|9) ,其 中 9 代表 未 知 参数 (1 个 或 多 个 )。 
设 半 ,六 ,,…, 了 ,为 来 自 总 体 XY 的 样本 ， 样 本 观测 值 为 尺 , 辑 ,…,x, ， 其 联合 概率 函数 是 的 函数 ， 
并 用 ZL(6) 表 示 ， 即 


称 L(0) 为 似 然 函 数 ， 对 样本 的 任何 观测 值 xX,X,，…, xX, ， 若 
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L(O) = L(x, x,,.., ,0) =supL(X, Xx,,...,X,;0) 
beQ 


则 称 使 L(0) 达到 最 大 的 参数 值 即 为 9 的 极 大 似 然 佑 计 值 。 若 p(x|9) 或 f(x|0) 关 于 9 可 微 ， 
则 极 大 似 然 估计 人 可 以 通过 方程 “< = 0 得 到 。 但 这 个 方程 解 起 来 十 分 复杂 ,尤其 似 然 函 数 大 多 
是 乘积 的 形式 ; 而 In(x) 是 x 的 单调 函数 ,对 数 的 形式 可 以 将 乘积 化 为 加 法 ， 因 此 参数 9 的 最 大 似 


然 估计 人 也 可 以 通过 方程 一 mL -0 得 到 ， 后 者 的 求解 会 简便 许多 


(1) 使 用 R 中 的 极 值 函数 计算 


同样 ，R 中 计算 极 值 的 函数 也 有 多 个 ， 首 先 在 表 6.3 中 列 出 这 些 函 数 ， 之 后 将 逐一 介绍 它们 
的 使 用 方法 。 


表 6.3 R 中 计算 极 值 的 函数 















[amg | HA 人 6 | | 
开导 最 小 化 bs 


1. 函数 optimize() 


当 分 布 只 包含 一 个 参数 时 ， 我 们 可 以 使 用 R 中 计算 极 值 的 函数 optimize0 求 极 大 似 然 估 计 值 。 
由 于 函数 来 自 统计 分 析 程 序 包 stats， 因 此 在 打开 R 时 会 自动 加 载 ， 其 调用 格式 如 下 : 


optimize (f=, interval =, ..., lower =minl(interval), upper =max (interval), maximum 
= FALSE, 


tol = .Machine$double.eps^0.25) 
其 中 f 是 似 然 函 数 ; interval 指定 参数 的 取 值 范围 ，lower/upper 分 别 是 参数 的 下 界 和 上 界 ; 
maximum 默认 为 FALSE， 表 示 求 似 然 函 数 的 极 小 值 ， 若 为 TRUE 则 求 极 大 值 ; tol 表示 计算 的 精度 。 
2. 函数 optim0 和 nlm0) 
当 分 布 包含 多 个 参数 时 ， 用 函数 optim0 或 nmO 计 算 似 然 函数 的 极 大 值 点 。 调 用 格式 分 别 为 : 
optim(par, fnrgz=NULD，.。.y 


method=c ("Nelder-Mead", "BFGS", "CG", "L-BFGS-B", "SANN", "Brent"), 
lower = -Inf, upper = Inf, control = list(), hessian = FALSE) 


par 设置 参数 的 初始 值 ;， 包 为 似 然 函数 ; method 提供 了 5 种 计算 极 值 的 方法 。 


nim(f, p, ..., hessian = FALSE, typsize = rep(l, length(p)), fscale = 1，Print.level = 0, 
ndigit = 12,gradtol = le-6, stepmax = max(1000 * sqrt(sum( (p/typsize)“^2)), 1000), 
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steptol = le-6,iterlim = 100, check.analyticals = TRUE) 

nlm 是 非 线 性 最 小 化 函数 ， 仅 使 用 牛顿 -拉夫 进 算法 ， 通 过 迭代 计算 函数 的 最 小 值 点 。 一 般 只 
需要 对 前 两 个 参数 进行 设置 : f 是 需要 最 小 化 的 函数 ; p 设置 参数 初始 值 。 

3. 函数 nlminb() 


在 实际 应 用 中 ， 上 面 这 三 个 基本 函数 在 遇 到 数据 量 较 大 或 分 布 较 复 杂 的 计算 时 ， 往 往 很 难得 
到 估计 结果 。 因 此 这 里 着 重 介 绍 另 一 个 优化 函数 nlminb()。 
nlminb (start，，objective，gradient = NULL, hessian = NULL, ..., 
scale = 1, control = list(), lower = -Inf, upper = Inf) 
参数 start 是 数值 向 量 , 用 于 设置 参数 的 初始 值 ; objective 指定 要 优化 的 函数 ; gradient 和 hess 
用 于 设置 对 数 似 然 的 梯度 ， 通 常 采 用 默认 状态 ;control 是 一 个 控制 参数 的 列表 ; lower 和 upper 
设置 参数 的 下 限 和 上 限 ， 如 果 未 指定 ， 则 假设 所 有 参数 都 不 受 约束 。 


nlminb() 也 是 非 线 性 最 小 化 函数 ,但 它 使 用 端口 程序 (PORT routines) 进行 约束 或 无 约束 的 
优化 ， 方 法 上 的 不 同 使 其 计算 能 力 要 比 前 面 几 个 函数 强大 很 多 。 用 R 进行 分 布 拟 合 时 ， 最 困难 
的 要 属 “ 双 峰 ” 形 状 的 混合 分 布 ， 因 为 涉及 参数 很 多 ， 一 般 的 优化 函数 都 无 法 得 出 计算 结果 ， 
这 时 nlminb0 的 强大 就 体现 出 来 了 。 我 们 使 用 程序 包 MASS 中 的 数据 geyser 来 证 明 这 一 点 ， 该 数 
据 集 是 一 个 地 质 学 家 记录 的 美国 黄石 公园 内 一 个 名 为 Old Faithful 的 喷泉 在 一 年 内 的 喷发 数据 , 其 
中 包括 两 个 变量 ,分 别 是 泉水 持续 时 间 (eruptions〉 和 喷发 相隔 时 间 (waiting)。 先 简单 看 一 下 数 
据 的 样子 : 


>library (MASS) 
>head (geyser, 5) 





waiting duration 


二 80 4.016667 

71 2.150000 
3 57 4.000000 
4 80 4.000000 
3 75 4.000000 


我 们 要 对 变量 waiting 进行 分 布 拟 合 ， 拟 合 前 要 通过 直方 图 (如 图 6.2 所 示 ) 了 解数 据 分 布 的 
形态 。 


>attach (geyser) 
>hist (waiting,freq=FALSE) 


从 图 6.2 中 可 以 看 出 ， 数 据 有 两 个 峰 ， 像 是 两 个 分 布 合 加 在 一 起 的 ， 我 们 可 以 猜测 分 布 是 两 
个 正 态 分 布 的 混合 ， 用 如 下 函数 来 描述 


f(x)=p:N(x;M,0)+(1—p): N(x; 1,,0,) 
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Histogram of waiting 
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图 6.2 “ 双 峰 ”数据 的 直方 图 


为 了 正确 地 描述 分 布 状态 ， 需 要 估计 出 函数 中 的 5 个 参数 : p、u,、o, 、 儿 和 ao ， 首 先 写 出 
分 布 函数 的 对 数 似 然 函 数 。 


1= Ylog{pNG;p4,0)+(1 PNG; 14,05)) 


-> iog() 


在 RR 中 编写 对 数 似 然 函数 时 ,5 个 参数 都 存放 在 向 量 para 中 , 由 于 nlminb0 是 计算 极 小 值 的 ， 
因此 函数 fanction 中 最 后 返回 的 是 对 数 似 然 函 数 的 相反 数 。 
>11=function (para) 
下 
fl=dnorm(waiting,para[l2],para[3]) 
f2=dnorm (waiting,para[4],para[5]) 
f=pPara[1]*fl+(1-para[1])*f2 
1l=sum (log (£f)) 
return (-11) 
} 


接 下 来 做 参数 估计 ， 使 用 nlminb0 之 前 最 大 的 要 点 是 确定 初始 值 ， 初 始 值 越 接 近 真 实 值 ， 计 
算 的 结果 才能 越 精确 。 我 们 猜想 数据 的 分 布 是 两 个 正 态 的 混合 ， 概 率 p 直接 用 0.5 做 初 值 即 可 ， 
通过 直方 图 中 两 个 峰 对 应 的 x 轴 数 值 (大概 为 50 和 80)， 就 可 以 将 初 值 设 定 为 久 和 Jj, 。 而 概率 p 
处 于 (0,1) 区 间 内 ,参数 01,0, 是 正 态 分 布 的 标准 差 .必须 大 于 0， 所 以 通过 lower 和 upper 两 个 参 
数 进行 一 定 的 约束 。 


>geyser.est=nlminb(c(0.5,50,10,80,10),11,lower=c(0.0001,-Inf,0.0001,-Inf,0.0001), 
upper=c (0.9999, Inf,Inf,Inf,Inf)) 

>options (digits=3) 

>geyser.est$par # 查 看 拟 合 的 参数 结果 


十 十 十 十 十 十 十 
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[1] 0.308 54.203 4.952 80.360 7.508 

> p=geyser.est$par[1] 

> mul=geyser.est$par[2];sigmal=geyser.est$par[3] 

> mu2=geyser.est$par[4] ;sigma2=geyser.est$par[5] 

> x=seq(40,120) 

> # 将 估计 的 参数 函数 代入 原 密度 函数 

>f=p*dnorm (x,mul,sigmal)+(1-p)*dnorm (x,mu2, sigma2) 
>hist (waiting,freq=F) 

> lines (x,f) # 务 出 拟 合 曲线 


绘制 结果 如 图 6.3 所 示 。 


Histogram of waiting 
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6.3 ”混合 分 布 的 拟 合 效果 


从 图 形 效果 来 看 ，nlminbO 可 以 很 好 地 对 混合 分 布 作 极 大 似 然 估计 ， 即 使 参数 有 5 个 之 多 ， 
也 能 准确 地 给 出 估计 结果 。 


(2) 使 用 极 大 似 然 估计 函数 maxLik() 计 算 

除了 以 上 几 个 基本 函数 外 ，R 中 有 专门 的 程序 包 用 于 作 极 大 似 然 估计 ， 笔 者 最 常用 的 是 
maxLik， 它 不 仅 使 用 简单 ， 而 且 即使 在 初始 值 偏离 较 大 的 情况 下 ， 计 算得 到 的 估计 值 也 非常 接近 真 
值 ， 计 算 准 确 度 较 高 。 而 上 面 介绍 的 两 个 函数 ， 若 参数 初始 值 设 定 得 不 准确 ， 很 有 可 能 会 无 法 计算 
出 结果 。 程 序 包 maxLik 中 同名 的 函数 maxLikO 可 以 直接 计算 极 大 似 然 估计 值 ， 调 用 格式 如 下 : 


maxLik(logLik, grad = NULL, hess = NULL, start, method,constraints=NULL, ...) 


其 中 的 参数 意义 与 nminb0 中 的 比较 类 似 。logLik 是 对 数 似 然 函 数 ， 这 里 要 特别 注意 ，logLik 
引用 的 函数 必须 是 经 过 对 数 调整 后 的 ;grad 和 hess 用 于 设置 对 数 似 然 的 梯度 , 通常 不 需要 进行 设 
置 ， 采 用 默认 值 NULL 即 可 ; start 是 一 个 数值 向 量 , 设置 参数 的 初始 值 ， method 选择 求解 最 大 化 
的 方法 ， 包 括 “ 和 牛顿- 拉夫 逊 入 “BFGS”“BFGSR”“BHHH”“SANN” 和 “Nelder-Mead”， 如 
果 不 设 置 ， 将 自动 选择 一 个 合适 的 方法 ，constraints 指定 对 似 然 估计 的 约束 。 


极 大 似 然 估计 不 仅 适 用 于 连续 分 布 ， 也 适用 于 离散 分 布 。 所 以 下 面 我 们 使 用 第 一 节 中 给 出 的 
损失 次 数 的 数据 num， 采 用 两 参数 的 负 二 项 分 布 做 极 大 似 然 估 计 ， 具 体 说 明 离 散 分 布 的 拟 合 。 负 


第 6 章 参数 估计 及 R 实现 121 


二 项 分 布 的 参数 为 (7, 户 ) ， 概 率 函 数 为 : 


_ TIT(k+7) 
Pr TTD 
1 
< 


编写 R 程序 时 首先 要 写 出 对 数 似 然 函 数 loglik, 用 到 R 中 的 负 二 项 函数 dnbinom(), 它 的 参数 
是 r、p。 如 果 要 估计 户 的 值 ， 应 当 转 换 一 下 形式 。 使 用 maxLik 函数 后 将 得 到 一 个 列表 ， 包 含 很 
多 信息 ， 其 中 的 estimate 为 两 个 参数 的 估计 值 。 


>num=c (rep (0:5,c(1532,581,179,41,10,4))) 

>install .packages ("maxLik") 

>loglik=function (para) { 

+ f=dnbinom (num,para[1],1/ (1+para[2]))# 注 意 第 二 个 参数 不 是 beta， 是 prob 
+ 1l=sum(log(f£)) 

+ return(11) 

+ } 

>library (maxLik) 

>para=maxLik (loglik, start=c (0.5,0.4))S$estimate # 极 大 似 然 估计 

> r=para[l] ;beta=para[2] 


参数 的 检验 将 在 下 文 介绍 ， 这 里 我 们 仍 通过 图 形 来 观察 估计 的 效果 ， 比 较 损 失 次 数 的 样本 值 
和 估计 值 。 


> 1=length (num) 

>nbinomnum=dnbinom(0:5,r,1/(l+beta))*1;nbinomnum 

[1] 1530.116467 588.080543 170.655271 44.166955 10.737733 2.509432 
> plot (0:5,nbinomum, ylim=c (0,1600)) # 画 图 比较 

>points (0:5,nbinomnum,type="p",col=2) 

>legend (3,1000, legend=c ("num", "poisson"),col=1:2,1ty=1) 


绘制 结果 如 图 6.4 所 示 。 


太一 站 k=0,1,2,... 


p 


8 


nbinomnum 
1000 


500 





0 





图 6.4 损失 次 数 的 极 大 似 然 估计 
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由 图 6.4 可 以 看 出 , 负 二 项 分 布 的 极 大 似 然 估 计 效 果 非 常 好 ,估计 值 与 样本 值 几乎 完全 重合 ， 
因此 我 们 可 以 得 出 结论 ， 损 失 次 数 服从 负 二 项 分 布 。 


6.2 单 正 态 总 体 的 区 间 估 计 


6.1 节 介 绍 的 点 估计 值 只 是 估计 量 的 一 个 近似 值 ， 但 是 我 们 不 禁 会 考虑 : 这 种 点 估计 的 精确 
性 如 何 ? 有 多 大 的 置信 和 度 ? 点 估计 本 身 是 无 法 解决 这 些 问题 的 ， 因 为 它 没 有 反映 出 估计 的 误差 范 
围 有 多 大 ， 这 些 正 是 区 间 估 计 要 讨论 的 问题 。 区 间 估 计 是 重要 的 统计 推断 形式 ， 其 引入 了 置信 度 
的 概念 ， 按 照 一 定 的 正确 度 和 精确 度 要 求 ， 利 用 抽取 的 样本 构造 出 适当 的 区 间 ， 作 为 总 体 分 布 的 
未 知 参数 真 值 的 估计 范围 。 例 如 入 们 常 说 有 百 分 之 多 少 的 把 握 保证 某 值 在 某 个 范围 内 ， 即 是 区 间 
估计 的 最 简单 的 应 用 。 若 满足 式 子 


PION(K, yn YEA OE ,1 


则 称 区 间 (6,6,) 是 参数 9 的 置信 度 为 1- c 的 置信 区 间 ， 也 就 是 说 此 区 间 包 含 2 的 可 能 性 〈 置 
信 度 ) 是 1-c 。 

首先 我 们 来 讨论 单个 正太 总体 的 情况 ， 了 ~N(1,o”)， 关 ,了 ,,…, 了 XY, 是 来 自 正 态 总 体 的 一 个 
样本 ， 屯 是 样本 均值 ，S? 是 样本 方差 。 
6.2.1 均值 4 的 区 间 估 计 

单个 正 态 总 体 均值 的 估计 ， 分 别 从 总 体 方差 o? 已 知 和 未 知 两 种 情形 入 手 。 


(1) 已 知 





i 2 es 
由 中 心 极限 定理 可 知 也 ~ N(J, )， 因 此 有 = A 


o/Mn 
再 由 概率 P(-zo <Z<zop)=1-w 可 得 


pF- 2Z012 cp<R+ Esa]-1-e 


其 中 ，2zjs 是 标准 正 态 分布 M0,1) 上 的 Qf/2 分 位 点 ， 由 此 我 们 可 以 得 到 关于 均值 4、 置 信 水 
平 为 1- c 的 双 侧 置信 区 间 为 


ee oO a oO 
| 
在 R 中 实现 单 正 态 总 体 均 值 的 区 间 估 计 ( 方 差 已 知 ) 可 以 有 三 种 实现 方式 。 首 先 ， 我们 知道 
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R 中 没有 计算 方差 已 知 时 均值 置信 区 间 的 内 置 函数 ， 需 要 自己 编写 ， 代 码 也 比较 简单 : 


conf.int=function (x, sigma,alpha) { 

mean=mean (x) 

n=length (x) 
z=qnorm(l1-alpha/2,mean=0, sd=1, lower .tail=TRUE) 
c(mean-sigma*z/sqrt (n) ,meantsigma*z/sqrt (n)) 


} 

其 中 x 为 数据 样本 ; sigma 是 已 知 总 体 的 标准 差 ，alpha 表示 显著 性 水 平 。 通 常 我 们 作 区 间 佑 
计时 ， 都 会 估计 出 双 侧 的 置信 区 间 ， 因 为 它 为 待 估 参 数 提供 了 上 下 限 两 个 参考 值 。 但 如 果 要 估计 
单 侧 的 置信 区 间 ， 理 论 上 与 双 侧 相同 ， 只 需要 使 用 标准 正 态 分 布 的 w 分 位 点 即 可 ,编写 函数 时 也 
做 同样 变动 即 可 。 


事实 上 , 随 着 更 多 统计 程序 包 的 开发 , 现在 基本 统计 和 数据 分 析 程 序 包 BSDA (Basic Statistics 
and Data Analysis) 中 已 经 提供 了 函数 ztest0， 它 可 以 对 基于 正 态 分 布 的 单 样本 和 双 样 本 进行 假设 
检验 、 区 间 估 计 ， 其 使 用 方法 如 下 : 

z.test(x, y = NULL, alternative = "two.sided", mu = 0, sigma.x = NULL, 

sigma.y = NULL, conf.level = 0.95) 

其 中 ，x 和 y 为 数值 向 量 ， 默认 y=NULL， 即 进行 单 样本 的 假设 检验 ，alternative 用 于 指定 所 
求 置 信 区 间 的 类 型 , 默认 为 two.sided, 表示 求 双 尾 的 置信 区 间 , 若 为 less 则 求 置信 上 限 , 为 greater 
求 置信 下 限 ; mu 表示 均值 ， 它 仅 在 假设 检验 中 起 作用 ， 默 认为 0，sigma.x 和 sigma.y 分 别 指定 两 
个 样本 总 体 的 标准 差 ; conflevel 指定 区 间 估 计时 的 置信 水 平 。 


第 三 个 函数 是 程序 包 UsingR 中 的 函数 simple.z.test()， 它 专门 用 于 对 方差 已 知 的 样本 均值 进 
行 区 间 估 计 , 与 z.test0 的 不 同 点 在 于 它 只 能 进行 置信 区 间 估 计 , 而 不 能 实现 Z 检 验 。simple.z.test() 
的 使 用 方法 如 下 : 


simple.z.test (x, sigma, conf.level=0.95) 


其 中 ，x 是 数据 向 量 ，sigma 是 已 知 的 总 体 标准 差 ，conf.level 指定 区 间 估 计 的 置信 和 度 ， 默 认 
为 95%。 


举例 说 明 ， 首 先 从 均值 为 10、 标 准 差 为 2 的 总 体 中 抽取 20 个 样本 ， 因 此 这 是 一 个 方差 已 知 
的 正 态 分 布 样本 。 计 算 置 信 水 平 为 95% 时 x 的 置信 区 间 ， 首 先 调用 自行 编写 的 函数 confint0， 输 
入 显著 性 水 平 参数 w = 0.05 。 

> set.seed(111) # 设 定 随机 种 子 

> x=rnorm(20,10,2) 

> Conf.int (x 27005) 

[1] 8.416051 10.169096 


用 函数 ztestO 也 可 以 直接 得 到 这 一 结果 ， 函 数 ztestO 计 算 后 将 输出 很 多 信息 ， 如 果 只 要 区 间 
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估计 的 结果 ， 则 用 符号 “$” 选 取 conf'int 的 内 容 : 


> library ("BSDA") 

> z.test (x,sigma.x=2) $conf.int 
[1] 8.416051 10.169096 
attr(,"conf.level") 

[11 0..95 


第 三 种 实现 方法 是 函数 simple.ztest)， 它 可 以 直接 得 到 区 间 估 计 结果 。 


> libprary("UelngR", lB. loc="D:/R=3350.2/R-3.0:2/library") 
Loading required package: MASS 

> simple.z.test (x,2) 

[1] 8.416051 10.169096 


三 种 方法 的 结果 均 显 示 ， 该 样本 的 95% 和 置信 区 间 为 [8.42, 10.17]。 


对 于 非 正 态 总 体 ， 当 样本 量 很 大 时 也 可 以 使 用 上 面 的 函数 做 均值 的 区 间 估 计 。 根 据 中 心 极限 
定理 ， 对 于 足够 大 的 n， 近 似 成 立 


于 一 
3 
如 果 方 差 o? 未 知 ， 则 可 以 使 用 样本 方差 代替。 在 置信 水 平 1-w 下 导出 均值 的 置信 区 间 为 


~ NM(0D 


时 


一 5 
bi 到 
这 与 正 态 总 体 的 区 间 估 计 形 式 一 致 ， 因 此 也 可 以 使 用 函数 conf.int()。 


(2) 0 ”未知 
总 体 方 差 未 知 时 ， 用 t 分 布 的 统计 量 来 替代 z， 方 差 也 要 由 样本 方差 % 代替 ， 所 以 此 时 的 置 
信和 区 间 为 


眉 和 tu2(n —1), + 如 ia (7 一 )) 


在 R 中 实现 方差 未 知 的 区 间 估 计 非 党 容易。 我 们 知道 ， 参 数 估 计 与 假设 检验 有 着 密 不 可 分 的 
关系 ,所 以 调用 检验 的 函数 就 可 以 直接 求 出 置信 区 间 了 ,， t.test0 的 调用 格式 如 下 。 这 里 先 介绍 用 
它 计算 区 间 估 计 的 方法 ， 假 设 检验 相关 的 部 分 将 在 下 文中 详细 介绍 。 


t.test(x, y = NULL,alternative = c("two.sided", "less", "greater"), 
mu = 0, paired = FALSE, var.equal = FALSE,conf.level = 0.95, ...) 
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其 中 ，x 为 样本 数据 ， 若 x 和 y 同时 输入 ， 则 做 双 样 本 t+ 检验 ; alternative 用 于 指定 所 求 置信 
区 间 的 类 型 ， 默认 为 two.sided,， 表示 求 双 尾 的 置信 区 间 ， 若 为 less 则 求 置信 上 限 ， 为 greater 求 置 
信 下 限 ; mu 表示 均值 ， 其 仅 在 假设 检验 中 起 作用 ， 默 认为 0。 


仍 使 用 上 例 中 的 向 量 x， 假 设 总 体 方差 未 知 时 ， 用 函数 t.test0 计 算 置 信 区 间 后 将 输出 很 多 信 
如 果 只 要 区 间 估 计 的 结果 ， 则 用 符号 “$” 选 取 conf.int 的 内 容 : 

>t.test (x) $conf.int 

[1] 8.19 10.47 

attr(y "conf.,. level"™) 

[2] ©.95 


息 


~ 


总 体 方差 未 知 时 得 到 x 的 置信 区 间 为 [8.19, 10.47]， 比 方差 已 知 的 区 间 要 更 宽 ， 这 个 结果 十 分 
合理 ， 因 为 方差 未 知 时 我 们 可 用 的 信息 更 少 ， 估 计 结 果 相 对 不 那么 精确 。 


6.2.2 方差 o? 的 区 间 估 计 


估计 均值 时 ， 我 们 分 方差 已 知 和 方差 未 知 两 种 情况 分 别 进行 了 讨论 。 类 似 地 ， 方 差 的 区 间 估 
计 也 根据 均值 已 知 和 未 知 两 种 情形 讨论 。 


(1) KH 人 已 知 
当 已 知 ， 根据 0? 的 极 大 似 然 估计 7 = Dp) 来 推导 置信 区 间 。 首 先 ， 根 据 卡 方 分 
i=l 
布 的 定义 


n 





(和 [oO 


oO 


no 


PP 好 cas 于 (| 总 可 以 和 的 时 水 于 为 1 的 了 





C 
信 区 间 


| no no | 
交 (n) oan (n) 
其 中 ，s(n) 和 2,(n) 分 别 为 自由 度 为 n 的 卡 方 分 布 上 1-g/2 和 ww/2 分 位 点 。 


(2) KH 未 知 
当 未 知 时 ，o? 的 极 大 似 然 估计 为 样本 方差， 即 5? = 一 二 六 (一 也? 。 由 于 
i=1 


n 
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7 一 DS” 
天 = 


-1)S” 
因此 ， 有 Fe (n -1) < ”人 < po (n | =1—@&, 从 而 得 到 均值 未 知 时 方差 的 


置信 区 间 〈 置 信 水 平 为 1-c ) 为 


| (n-D)S’ (n-1)s? | 
po (n—l) pe (2 一 IT 


在 R 中 没有 直接 计算 方差 的 置信 区 间 的 函数 ,我 们 可 以 把 上 面 两 种 情况 写 在 一 个 函数 里 , 通 
过 一 个 让 语句 进行 判断 ， 只 要 是 方差 的 区 间 估 计 ， 都 调用 这 个 函数 即 可 。 在 R 中 写 函 数 时 ， 参 数 
可 以 事先 设 定 一 个 初 值 ， 例 如 设 mu=Inf， 代 表 均 值 未 知 的 情况 ， 调 用 函数 时 如 果 没 有 特殊 说 明 
mu 的 值 ， 将 按照 均值 未 知 的 方法 计算 ; 如果 均 值 已 知 ， 在 调用 函数 时 应 该 对 mu 重新 赋值 。 


Var.conf .int=function (x,mu=Inf,alpha) { 
n=length (x) 
IE (mu<Inf)t{ 
s2=sum( (x-mu) ^2) /n 
df=n 
} 
elsel 
S2=Var (X) 
df=n-1 
} 
c(ldf*s2/qchisq(l1-alpha/2,df),df*s2/gqchisq (alpha/2,df)) 
} 


在 实际 分 析 中 , 均值 4 基 本 都 是 未 知 的 情形 , 例如 计算 样本 半 的 方差 的 置信 区 间 时 ， 若 均值 
未 知 ， 调 用 函数 时 就 不 需要 指定 mu 的 值 了 。 


> var.conf.int (x,alpha=0 .05) 
[1] 3%4112.58 


计算 得 到 总 体 方差 的 置信 区 间 为 [3.41, 12.58]， 和 置信 水 平 是 95%。 


6.3 ”两 正 态 总 体 的 区 间 估 计 


单个 总 体 的 区 间 估 计 针 对 总 体 的 均值 和 方差 ， 当 我 们 有 两 个 总 体 的 时 候 ， 就 要 对 它们 的 参数 
进行 对 比 了 , 这 在 实际 应 用 中 很 常见 。 比 如 , 我 们 要 考察 一 项 新 技术 对 提高 产品 质量 是 否 有 成 效 ， 
则 把 新 技术 实施 前 后 的 产品 质量 指标 看 成 两 个 正 态 总 体 ， 这 时 我 们 所 考察 的 问题 ， 就 转化 为 检验 
这 两 个 正 态 总 体 的 均值 比较 的 问题 。 
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设 与 了 是 两 个 独立 的 总 体 ， 半 ~N(j4,07), 了 ~N(1,23)， 了 X,Y,,…, 了 Xi 是 来 自 总 体 久 
的 样本 ， 玉 , 轧 ,…, 了 ,是 来 自 总 体 了 的 样本 ， 它 们 的 均值 分 别 为 玉 和 了 ， 方 差分 别 为 5 和 52。 


6.3.1 均值 差 一 的 区 间 估 计 
根据 两 样本 总 体 方差 是 否 已 知 、 是 否 相等 ， 这 里 要 分 三 种 情况 讨论 。 
(1) 两 个 总 体 的 方差 of 、o3 已 知 
对 于 两 个 正 态 总 体 ， 当 它们 的 方差 都 已 知 时 ， 根 据 正 态 分 布 的 性 质 有 


二 2 2 
ZF Nn-p + 
n n 


类 似 于 单 正 态 总 体 区 间 估 计 的 推导 ， 可 以 得 到 J 一 好 的 置信 水 平 为 1- C 的 双 侧 置信 区 间 ， 
这 里 省 略 推导 过 程 ， 直 接 给 出 结果 : 


2 2 2 2 

一 0 二 二 ol oO 
1 2 1 2 
De sD ee yd 
hi rh nn nn, 


在 R 中 编写 计算 置信 区 间 的 函数 twosample.ci0 如 下 ， 输 入 参数 为 样本 x、y、 置 信 度 w 和 两 
个 样本 的 标准 差 。 
twosample.ci=function (x,y,alpha, sigmal, sigma2) { 
nl=length (x) ;n2=length (y) 
xbar=mean (x) -mean (y) 
z=qnorm(l-alpha/2)*sqrt (sigmal^2/nl+sigma2^2/n2) 
c(xbar-z,xbart+z) 
} 
前 面 介绍 的 Z 检 验 函 数 z.test0 可 以 在 两 总 体 方差 已 知 的 情况 下 ,计算 两 总 体 均 值 差 的 置信 区 


间 ， 分 别 用 参数 sigma.x 和 sigma.y 来 说 明 已 知 的 标准 差 数 值 即 可 。 


介绍 过 理论 后 ， 我 们 以 Bamberger’s 百货 公司 为 案例 做 一 个 实证 分 析 。Bamberger's 是 一 家 为 
社区 提供 大 众 性 商品 的 零售 商店 ， 你 几乎 可 以 从 这 里 买 到 诸如 香水 到 链 锯 之 类 的 任何 东西 ， 长 期 
以 来 ， Bamberger’s 的 顾客 服务 有 着 极 好 的 口碑 。 为 了 努力 维持 商店 的 良好 声誉 ， 公 司 实施 了 将 营 
业 时 间 延 长 至 夜间 的 计划 。 

以 Bamberger’s 延长 营业 时 间 前 后 27 个 典型 周 的 销售 额 数据 为 例 〈 以 万 元 为 单位 )， 计 算 这 


两 个 样本 均值 差 的 区 间 估 计 ， 从 而 可 以 看 出 计划 实施 后 的 效果 。 首 先 查看 数据 的 基本 类 型 ， 并 绘 
制 直方 图 对 比 。 


128 ”数据 分 析 : R 语言 实战 


>sales=read.table("d:/data/sales.txt",header=T) 
>head (sales) 

prior post 

1 67.90 86.10 

这 3 

68.64 116.25 

74.94 102.60 

G3532 97.51 

50,.43 65.39 

>attach (sales) 

>par (mfrow=c (1,2)) 

>hist (prior) # 分 别 绘制 计划 前 后 销售 额 的 直方 图 
>hist (Post) 


On 性 mw 


绘制 结果 如 图 6.5 所 示 。 
Histogram of prior Histogram of post 
ww om 
-0 
夫人 全 
和 
区 [3 
YL 
口 b= 
0 
40 S50 6 70 80 60 70 80 90 100 120 
prior post 


图 6.5 Bamberger’s 营业 额 的 直方 图 


从 直方 图 可 以 看 出 ， 销 售 额 样本 大 致 呈正 态 分 布 ， 假 设 已 知 计划 实 施 前 后 的 总 体 标准 差分 别 
为 8 和 12， 调 用 上 面 写 好 的 函数 ， 计 算 样本 均值 差 4 一 在 置信 水 平 为 1 一 下 的 置信 区 间 。 


>twosample.ci (post,prior,alpha=0.05, 8,12) 
[1] 19.10298 29.98295 


直接 使 用 程序 包 DBSA 中 的 函数 ztest0 也 可 以 得 到 相同 的 结果 : 


> z.test (post,prior,sigma.x=8,sigma.y=12) $conf.int 
[1] 19.10298: 29.98295 

attr(,"conf.level") 

[1] 0.95 


区 间 估 计 的 结果 是 ，Bamberger's 公司 延长 营业 时 间 后 周 营 业 额 明显 增加 ， 增 加 额 的 范围 是 
[19.10, 29.98]。 
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(2) 两 个 总 体 的 方差 o? 、o 未知 但 相等 
当 条 件 是 方差 o? 、o2 未 知 但 相等 时 ， 可 以 得 到 服从 上 分 布 的 统计 量 
Fi 


EE 
nm nn 


gm —1)S? +(n, —1)S; 


~i(nm +n, —2) 


其 中 


m+n,—2 
由 于 PC- (一 <T tn +n,—2))=1-—a » 解 不 等 式 可 以 得 到 4 一色 的 置信 水 平 
为 1 -a 的 双 侧 置信 区 间 为 


天 一 下 十， (下 二 而 一 对 Een 
mm 72 
正如 计算 单 正 态 总 体 均值 的 置信 区 间 ，R 中 的 函数 t.test0 还 可 以 用 来 求 两 总 体 均值 差 的 置信 
区 间 ， 由 于 总 体 方差 相等 ， 需 要 将 其 中 的 参数 varequal 设 为 TRUE。 在 Bamberger's 公司 的 案例 
中 ,如 果 延 长 营业 时 间 前 后 总 体 的 方差 未 知 但 相等 ,我 们 就 可 以 通过 t.test0 直 接 计算 置信 区 间 了 ， 
注意 用 美元 符号 “$” 选 取 检验 结果 中 的 项 目 confint。 


>t.test (post,prior,var.equal=TRUE) $conf.int 
[1] 18.66541 30.42051 

attr(,"conf.level") 

ti VO...95 


由 计算 结果 同样 可 以 得 到 结论 : Bamberger’s 公司 延长 营业 时 间 后 周 营业 额 明 显 增加 , 在 0.95 
的 置信 水 平 下 ， 营 业 额 增加 的 置信 区 间 是 [18.67, 30.42]。 
(3) 两 个 总 体 的 方差 o' 、o2 未 知 且 不 等 
当 两 总 体 的 方差 未 知 并 且 or 关 02 时 会 近似 得 到 
pC (ph) 
nm nn 


~t(y) 


用 样本 方差 代替 总 体 方差 ， 得 到 vv 的 估计 值 
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pr (Ss) (Se (S27 /n,)” Se 
n nn, | n,—1 


所 以 我 们 可 以 近似 地 认为 了 ~ ti) ， 由 此 得 到 年 一 锯 的 置信 水 平 为 1- c 的 双 侧 置 信 区 间 为 


3 
(XY Pit 0) 让 
mm nm 


显然 ， 第 三 种 情况 比较 复杂 ，R 中 也 没有 直接 的 函数 可 用 ， 仍 需要 手动 写 出 一 个 函数 
twosample.ci2()。 


twosample .ci2=function (x, y,alpha) { 
nl=length (x) ;n2=length (y) 

xbar=mean (x) -mean (Y) 
Sl=var (x) ; S2=var (y) 

nu=(S1/nl1+S2/n2) ^2/(S1^2/n1”2/ (nl-1)+S2^2/n2”^2/ (n2-1)) 
z=qt (1-alpha/2,nu)*sqrt (S1/n1l+S2/n2) 

G(xbar-z, Xbart+z) 

} 


在 实际 分 析 中 ， 两 总 体 的 方差 未 知 且 不 等 是 最 常见 的 情况 ， 在 Bamberger”s 公司 的 案例 中 ， 
如 果 延 长 营业 时 间 前 后 的 方差 未 知 并 且 不 相等 ， 就 要 通过 上 面 编写 的 函数 计算 样本 均值 差 的 置信 
区 间 。 


>twosample.ci2 (post,prior,0.05) 
[1] 18.63821 30.44771 


相 比 之 前 ， 营 业 时 间 延 长 后 的 样本 均值 明显 增加 ， 两 样本 均值 差 的 置信 区 间 为 [18.64, 30.45]。 
由 于 方差 未 知 ， 在 做 区 间 估 计时 可 利用 的 信息 更 少 ， 因 此 在 相同 置信 水 平 下 ， 这 时 估计 得 到 的 置 
信 区 间 相 对 更 宽 一 些 。 
6.3.2 ”两 方差 比 o7 /cy 的 区 间 估 计 
在 实际 分 析 中 ， 总 体 均值 通常 是 未 知 的 ， 尤 其 涉及 到 两 个 总 体 时 。 比 较 两 个 总 体 的 方差 ， 采 
用 的 是 “ 比 ” 的 形式 ， 而 不 是 差 值 ， 这 与 统计 量 的 构造 有 关 。 由 于 
二 了 如 _1)s 
(Ca 一 DS D ~ (1 —DS; 8 2 
o? 


1 


~X (m-)) 


总 体式 和 了 独立 ， 所 以 8 和 SS2 相互 独立 。 两 个 卡 方 分 布 的 随机 变量 的 比值 服从 瓦 分 布 ， 故 
S /or 


束 = 
S2/o2 





~F(n—l,n,—1) 
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所 以 对 于 给 定 的 置信 水 平 1 -a ， 有 不 等 式 





2 2 
Plral —1,n, —1) < 3 Le < Fn —1,n, -| 王 1 一 W 


2 
2 2 


其 中 ， 已 pa 一 1,n, 了) 表示 自由 度 为 (m,7,) 的 下 分 布 上 a /2 的 分 位 点 。 由 不 等 式 变形 得 到 
o? /oa2 的 置信 区 间 为 
| S?/S2 Ss?/52 | 


Fn —l1,n, 一 、 Fjn(m —l,n,—l) 


方差 比 的 区 间 估 计 与 方差 的 假设 检验 密 不 可 分 ， 所 以 R 中 的 函数 var.test0 可 以 用 来 直接 计算 
两 正 态 总 体 方差 比 的 置信 区 间 ， 调 用 格式 如 下 : 


var.test (x, y, ratio = 1, alternative = c("two.sided", "less", "greater"), conf.level 
W090 wii) 


其 中 的 参数 设置 与 上 文中 的 上 检验 函数 一 致 ，ratio 指定 原 假设 中 方差 比 的 值 , 通过 alternative 
设置 单 侧 区 间或 双 侧 。 


仍 以 Bamberger's 公司 的 数据 为 例 ， 如 果 想 要 考察 延长 营业 时 间 前 后 ， 周 营业 额 的 波动 情况 
是 否 一 致 ， 这 就 转化 为 两 方差 比 估计 的 问题 了 。 


>var.test (prior,post) $conf.int 

[1] 0.1772458 0.8534348 

attr(, "conf.level") 

(ai 罗 人 5 

通过 函数 vartestO 计 算 后 的 结果 可 以 看 出 ， 两 样本 方差 比 在 95% 置 信 水 平 下 的 区 间 估 计 为 
[0.1772, 0.8534]， 这 说 明 延 长 营业 额 后 ， 周 营业 额 的 波动 性 变 大 。 


6.4 关于 比率 的 区 间 估 计 


从 小 学 做 数学 题 开始 ， 我 们 就 经 常见 到 关于 比例 或 比率 的 问题 ， 例 如 某 个 学 校 的 男女 比例 ， 
某 次 考试 的 及 格 率 、 优 秀 率 ， 某 种 产品 生产 后 的 合格 率 、 废 品 率 ， 甚 至 某 个 电视 节目 的 收视 率 ， 
等 等 。 这 说 明 在 实际 分 析 中 ， 我 们 常常 要 估计 在 总 体 中 具有 某 种 特性 的 个 体 占 总 体 的 比例 。 比 率 
的 点 估计 使 用 第 一 节 介绍 的 方法 即 可 ， 这 里 介绍 计算 比率 的 近似 区 间 估计 方法 。 

在 一 个 容量 为 上 的 样本 中 ， 设 x 为 具有 某 种 特征 的 样本 个 数 ， 那 么 样本 比例 为 xm。 比率 的 个 
计 要 建立 在 大 样本 量 的 基础 上 ， 这 是 因为 当 足 够 大 时 ， 根 据 中 心 极限 定理 可 知 样本 比率 的 抽样 
分 布 近似 于 正 态 分 布 ， 从 而 可 以 使 用 正 态 分 布 的 规律 进行 有 关 总 体 比率 的 估计 。 对 于 总 体 比率 估 
计量 户 = 2 而 言 ， 有 
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Z = 一 一 
VPU-P)/n 


根据 P(-2Z。j; <Z<26s)=1-Q， 解 不 等 式 可 以 得 到 总 体 比率 p 在 置信 水 平 1 -a 下 的 置信 区 


~ N(0,1) 


间 
(B-zaa VPA-B)/n, PtzaVBU-P)/n) 


比率 的 估计 在 R 中 实现 起 来 也 比较 简单 ， 函 数 prop.test0 可 以 直接 完成 对 p 的 估计 和 检验 ， 
其 调用 格式 为 


Prop .test (x, n, p= NULL, alternative = c("two.sided", "less", "greater"), conf.level = 0.95, 
correct = TRUE) 


其 中 ， 参 数 x 为 具有 某 种 特征 的 样本 个 数 ; n 为 样本 量 ; p 设置 假设 检验 时 原 假 设 的 比率 值 ; 
correct 是 逻辑 值 ， 设 置 是 否 应 用 Yates 连续 性 修正 ， 默 认为 TRUE。 


下 面 举例 说 明 比 率 的 区 间 估 计 。 某 市 为 了 解 居民 住房 情况 ， 抽 查 了 n=2000 户 家 庭 ， 其 中 人 
均 不 足 5 平米 的 困难 户 有 x=214 个 ， 通 过 样本 信息 计算 该 市 困难 户 比率 p 的 置信 区 间 (置信 和 度 为 
0.95 )。 


>Prop .test (214,2000) 
1-Sample proportions test with continuity correction 


data: 214 out of 2000, null Probability 0.5 
X-squared = 1234.021, df = 1, p-value < 2.2e-16 
alternative hypothesis: true p is not equal to 0.5 
95 percent confidence interval: 

0.09396256 0。.12157198 

sample estimates: 


卫 
0.107 


比率 检验 函数 的 计算 结果 表明 ， 在 95% 的 置信 水 平 下 ， 困 难 户 比率 的 区 间 估 计 为 [0.0940， 
0.1216]， 而 最 后 一 行 的 p 值 给 出 的 是 点 估计 ， 该 市 困难 户 比率 为 0.107。 


事实 上 ， 当 样本 数 足够 多 时 ，x 服从 超 几 何 分 布 ， 上 面 我 们 用 的 是 正 态 分 布 近似 ， 但 当 抽 样 
比 很 小 时 还 可 以 用 二 项 分 布 来 近似 , 这 时 用 到 的 函数 是 二 项 式 检验 binom.test(), 其 调用 格式 如 下 ， 
内 部 参数 与 prop.test0 一 致 。 在 上 例 中 ， 如 果 该 市 的 总 人 口 数 较 大 ， 那 么 抽样 比 很 小 ， 就 应 当 用 二 
项 分 布 近似 。 


binom.test (x, n, p=0.5, alternative = c("two.sided", "less", "greater"), conf.level 
= 0.95) 


>binom. test (214,2000) 
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Exact binomial test 


data: 214 and 2000 


number of successes = 214, number of trials = 2000, p-value < 2.2e-16 
alternative hypothesis: true probability of success is not equal to 0.5 
95 percent confidence interval: 
0.09378632 0.12137786 
sample estimates: 
probability of success 

0.107 


二 项 式 检验 的 结果 表明 ， 在 95% 的 置信 水 平 下 ， 困 难 户 比 率 的 区 间 估 计 为 [0.0938, 0.1214]， 


这 与 修正 正 态 近似 的 结果 非常 接近 ， 点 估计 值 仍 为 0.107。 


1 


假设 检验 及 R 实现 


参数 估计 与 假设 检验 是 统计 推断 的 两 个 组 成 部 分 ， 都 是 利用 样本 信息 对 总 体 进行 某 种 推断 ， . 
只 是 角度 不 同 。 参 数 估 计 仅 仅 是 一 种 数理 统计 方法 ， 估 计 的 参数 值 是 对 总 体 参 数 或 分 布 形式 的 一 
种 假设 ， 然 而 它 是 否 准确 地 描述 了 总 体 的 分 布 呢 ? 这 时 需要 假设 检验 来 构造 合适 的 统计 量 ， 利 用 
样本 信息 对 所 提供 的 假设 进行 检验 ， 从 而 判断 是 否 接受 假设 。 假 设 检验 采用 逻辑 上 的 反 证 法 ， 依 
据 统计 上 的 小 概率 原理 ， 判 断 估 计数 值 与 总 体 真 实 值 之 间 是 否 存在 显著 差异 。 


本 章 将 分 别 从 正 态 总 体 的 检验 以 及 非 参 数 的 检验 方面 ， 重 点 介绍 如 何 运用 R 中 的 函数 完成 。 


7.1 假设 检验 概述 


对 总 体 参数 的 具体 数值 所 作 的 陈述 ， 称 为 假设 ， 再 利用 样本 信息 判断 假设 是 否 成 立 ， 这 整个 
过 程 称 为 假设 检验 。 假 设 检验 可 以 应 用 于 多 种 领域 ， 我 们 首先 通过 几 个 例子 来 说 明 : 


。 判断 当前 股票 价格 指数 的 走势 是 否 正 常 ， 我 们 可 以 根据 过 去 长 期 观察 得 到 的 平均 水 平和 
变异 情况 作为 总 体 ， 推 断 当 前 股价 水 平 与 历史 平均 水 平 是 否 在 一 定 范围 内 保持 一 致 。 

。 某 百 货 公 司 实施 了 新 的 销售 计划 ,管理 者 十 分 关心 新 措施 的 效果 ， 这 就 需要 用 假设 检验 
来 判断 ， 经 过 改革 后 ， 公 司 的 营业 额 是 否 有 显著 的 提高 。 

。 在 医学 统计 上 ， 常 遇 到 这 样 的 问题 : 对 于 某 种 疾病 ， 分 别 采 用 西药 和 中 西药 结合 两 种 疗 
法 ， 实 验 中 包含 两 组 样本 ， 推 断 两 组 疗效 有 无 显著 差别 。 


以 上 几 个 例子 都 是 假设 检验 问题 。 那 么 假设 检验 基于 什么 原理 ? 应 该 如 何 提出 假设 ? 怎样 构 
造 统计 量 判断 假设 是 否 成 立 呢 ? 
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7.1.1 理论 依据 


假设 检验 采用 的 逻辑 推理 方法 是 反 证 法 : 为 了 检验 一 个 假设 是 否 成 立 ， 先 假定 它 是 成 立 的 ， 
我 们 称 之 为 “ 原 假设 ”， 然 后 根据 抽样 原理 和 样本 信息 ， 观 察 由 这 个 原 假设 而 导致 的 结果 是 否 合 
理 。 如 果 不 合理 ， 则 说 明 原 假设 是 不 正确 的 ， 从 而 得 出 拒绝 原 假设 的 结论 ; 如 果 结 果 合理 ， 则 不 
能 拒绝 原 假 设 。 


假设 检验 之 所 以 可 行 ， 其 理论 背景 是 小 概率 理论 。 小 概率 事件 在 一 次 试验 中 几乎 是 不 可 能 发 
生 的 ， 但 是 它 一 旦 发 生 ， 我 们 就 有 理由 拒绝 原 假设 ， 反 之 ， 小 概率 事件 没有 发 生 ， 则 认为 原 假设 
是 合理 的 。 这 个 小 概率 的 标准 由 研究 者 事先 确定 , 即 以 所 谓 的 显著 性 水 平 k&(0 < a <1) 作 为 小 概率 
的 界限 ，& 的 取 值 与 实际 问题 的 性 质 相 关 ， 通 常 我 们 取 Q=0.1、0.05 或 0.01。 因 此 ， 假 设 检验 也 
称 为 显著 性 检验 。 

需要 注意 的 是 ， 假 设 检验 是 带 有 概率 性 质 的 反 证 法 ， 并 非 严 格 的 逻辑 证 明 。 因 此 假设 检验 所 
基于 的 样本 信息 毕竟 只 是 总 体 的 一 部 分 ， 不 能 完全 代表 总 体 ， 而 是 在 一 定 概率 〈 置 信 度 ) 下 来 推 
断 总 体 特 征 。 我 们 通常 把 1- cx 称 为 置信 水 平 ， 即 对 推断 结果 的 把 握 程 度 、 可 靠 性 。 

7.1.2 ”检验 步骤 

了 解 假 设 检验 的 基本 理论 后 ， 我 们 就 可 以 按照 以 下 几 个 步骤 进行 检验 了 。 

(1) 提出 假设 

首先 对 检验 的 未 知 数 9 作 一 个 单 侧 或 双 侧 的 假设 ， 假 设 的 选择 标准 是 : 通常 把 研究 者 要 证 明 


的 陈述 作为 备 择 假 设 。 原 假设 和 备 择 假设 必须 是 互 斥 事件 ， 等 号 必须 出 现在 原 假设 中 。 有 三 种 情 
况 : 双 侧 检验 、 左 侧 检验 和 右 侧 检验 。 如 表 7.1 所 示 。 


表 7.1 原 假设 与 备 择 假设 





(2) 确定 检验 统计 量 ， 计 算 统 计量 的 值 

假设 检验 和 参数 估计 在 统计 量 的 选择 上 是 一 臻 的。 一般 对 总 体 的 均值 、 方 差 和 比例 进行 假设 
检验 ， 在 不 同 的 已 知 条 件 下 分 别 采用 Z 统 计量 、t 统 计量 和 统计 量 ， 例 如 检验 总 体 均 值 时 可 如 
图 7.1 所 示 选 择 。 
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图 7.1 统计 量 的 选择 


(3) 规定 显著 性 水 平 ， 建 立 检验 规则 

显著 性 水 平 是 原 假设 为 真 时 拒绝 原 假设 的 概率 ， 以 Q 表示 ， 常 取 值 为 0.05、0.01 等 。 在 给 定 
的 显著 性 水 平和 已 知 的 总 体 分 布下 ， 我 们 可 以 查 表 得 到 相应 的 临界 值 ， 它 是 划分 拒绝 域 和 接受 域 
的 数值 。 拒 绝 域 是 检验 统计 量 取 值 的 一 个 集合 ， 当 根据 样本 计算 的 统计 量 属于 该 集合 时 ， 拒 绝 原 


(4) 作出 统计 决策 
最 后 一 步 判 断 是 否 接 受 原 假设 ， 可 以 使 用 两 种 规则 : 临界 值 规则 和 PP 值 规则 。 


。 “临界 值 规则 

双 侧 检验 : | 统计 量 | > 临界 值 时 ， 拒 绝 本 
左 侧 检验 : 统计 量 <= 临 界 值 时 ， 拒 绝 HH， 
右 侧 检验 : 统计 量 > 临界 值 时 ， 拒 绝 鼠 


。 书 值 规则 

在 一 个 假设 检验 问题 中 , 拒绝 原 假 设 的 最 小 显著 性 水 平 称 为 检验 的 P 值 。 P 值 可 以 告诉 我 
们 ， 如 果 原 假设 是 正确 的 话 ， 我 们 得 到 目前 这 个 样本 统计 值 的 可 能 性 有 多 大 ， 如 果 这 个 可 能 性 很 
小 ， 就 应 该 拒绝 原 假设 。 也 就 是 说 ,PP 值 越 小 ， 拒 绝 的 可 能 性 越 大 。 在 显著 性 水 平 4 下 , P 值 
规则 为 ， 如果 P< a ， 则 拒绝 Ho; 如 果 P>a， 则 不 拒绝 原 假设 。 


注意 : 当 不 能 拒绝 原 假设 时 ， 我 们 不 说 “接受 原 假 设 ”"， 因 为 没有 证 据 可 以 说 明 原 假设 
是 真 的 。 
7.1.3 ”两 类 错误 


显然 ， 我 们 希望 通过 假设 检验 得 到 正确 的 判断 ， 即 若 本身 是 真 的 ， 则 不 拒绝 ， 若 不正 
确 ， 则 拒绝 它 。 但 事实 上 ， 假 设 检 验 是 根据 有 限 的 样本 信息 来 推断 总 体 特 征 的 ， 由 于 样本 的 随机 
性 ， 在 推断 时 不 免 会 犯错 误 。 通常 我 们 所 犯 的 错误 有 两 类 : 称 为 第 一 类 错误 和 第 二 类 错误 。 第 一 
类 错误 是 否定 了 真实 的 原 假设 ， 即 “ 弃 真 ”， 犯 第 一 类 错误 的 概率 就 是 之 前 提 到 的 显著 性 水 平 2 。 


a =P{ 拒 绝 H,|Ho 为 真 } 
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通过 控制 显著 性 水 平 & 可 以 控制 犯 第 一 类 错误 的 概率 。 而 第 二 类 错误 是 接受 了 错误 的 原 假 
设 ， 发 生 概 率 用 户 表示 ， 即 


B=P{ 不 拒绝 ,|H, 为 假 } 


图 7.2 给 出 了 犯 两 类 错误 的 概率 在 分 布 图 上 的 示例 。 假 设 检验 中 的 结论 及 其 后 果 有 以 下 四 种 
情况 ， 见 表 7.2。 





图 7.2 犯 两 类 错误 的 概率 图 示 
表 7.2 假设 检验 的 四 种 结果 





7.2 单 正 态 总 体 的 检验 


实际 中 的 很 多 现象 都 可 以 用 正 态 分 布 去 近似 地 描述 ,这 对 应 于 第 6 章 单 正 态 总 体 的 区 间 估 计 ， 
我 们 首先 讨论 单个 正 态 总 体 的 假设 检验 问题 。 假 设 总 体 和 ~ N(J4,o”)， 半 ,站 ,、…, 耻 ,是 来 自 正 态 
总 体 的 一 个 样本 ， 匹 是 样本 均值 ，8 是 样本 方差 。 


单 正 态 总 体 的 假设 检验 组 要 分 情况 讨论 ， 不 同 条 件 下 需要 选取 不 同 的 检验 方法 ， 首 先 我 们 将 
这 些 方法 总 结 在 表 7.3 中 ， 然 后 再 逐一 展开 介绍 。 


表 7.3 单 正 态 总 体 的 假设 检验 方法 
机 










chisq.var.test() 〈 自 己 编写 ) 
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7.2.1 均值 上 的 检验 

与 参数 估计 一 样 ， 单 个 正 态 总 体 均值 的 假设 检验 ， 也 分 别 从 总 体 方差 o? 已 知 和 未 知 两 种 情 
形 入 手 。 

首先 ， 提 出 原 假设 和 备 择 假设 

双 侧 检验 : Ho :4=p10，Hi: Hz# jo 

单 侧 检验 : Ho: AS p40, Hi: p44>p 或 Ho: W240, Hi: KH< pm 


(1) 0 已 知 
当 厂 ,为 真 时 ， 即 人 = JU， 方差 已 知 设 为 0? =o?， 检验 统计 量 为 服从 标准 正 态 分 布 的 Z 统 计 


sp 
o/Vn 
用 Z 来 确定 拒绝 域 ,对 于 双 侧 检验 ， 拒 绝 域 为 |Z|> 2Z。, ， 当 Z 的 绝对 值 落 入 拒绝 域 时 ， 认 为 
原 假 设 不 成 立 ， 对 于 单 侧 检验 ， 其 拒绝 域 为 Z> Z, 或 Z<-Z,。 这 种 方法 称 为 Z 检验， 即 检验 是 
否 服从 正 态 分 布 。 
我 们 知道 ，R 自 带 的 函数 中 只 提供 了 上 检验 的 函数 ttest0， 而 没有 了 检验 的 函数 ， 因 此 仿照 
ttest0， 我 们 可 以 自己 编写 函数 ztest0， 用 于 计算 Z 统计 量 的 值 以 及 尸 值 。 


z.test=function (x,mu,sigma,alternative="two.sided"){ 





pa ~ N(0,1) 


n=length (x) 

result=1ist () # 构 造 一 个 空 的 List， 用 于 存放 输出 结果 
mean=mean (x) 

z= (mean-mu)/ (sigma/sqrt (n)) # 计 算 z 统计 量 的 值 
options (digits=4) # 结 果 显 示 至 小 数 点 后 4 位 
result$mean=mean; result$z=z # 将 均值 、z 值 存 入 结果 


result$P=2*pnorm (abs (z) ,Lower.tai1=FALSE) # 根 据 z 计 算 P 值 

# 若 是 单 侧 检验 ， 重 新 计算 了 值 

if(alternative=="greater") result$P=pnorm(z,lower.tail=FALSE) 
else if(alternative=="]less") result$P=pnorm(z) 

result 


} 
函数 z.test0 的 输入 参数 为 样本 x、 原 假设 中 /6o 的 值 、 已 知 的 标准 差 ( 注 意 不 是 方差 )， 以 及 


检验 的 方向 alternative: 默认 为 双 侧 检验 “two.sided”， 若 是 右 侧 检验 ， 输 入 参数 值 为 “greater”， 
左 侧 检验 为 “less”。 
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第 6 章 介 绍 过 程序 包 BSDA (Basic Statistics and Data Analysis)， 我 们 知道 其 中 已 经 提供 了 函 
数 z.test()， 它 可 以 对 基于 正 态 分 布 的 单 样本 和 双 样 本 进行 假设 检验 ， 其 使 用 方法 如 下 : 

z.test(x, y = NULL, alternative = "two.sided", mu = 0, sigma.x = NULL, 

sigma.y = NULL, conf.level = 0.95) 

其 中 ,x 和 y 为 数值 向 量 ,， 默认 y=NULL， 即 进行 单 样 本 的 假设 检验 ; alternative 用 于 指定 所 
求 置信 区 间 的 类 型 ， 默 认为 two.sided， 表 示 求 双 尾 的 置信 区 间 ， 若 为 less 则 求 置信 上 限 ，greater 
求 置信 下 限 ; mu 表示 均值 ， 仅 在 假设 检验 中 起 作用 ， 默 认为 0; sigma.x 和 sigma.y 分 别 指定 两 个 
样本 总 体 的 标准 差 。 


例如 ， 在 东方 财富 数据 中 心 可 以 获得 2012 年 各 月 北京 市 的 新 建 住宅 价格 指数 ， 要 检验 指数 
是 否 服从 均值 为 102.4、 方 差 为 0.45( 标 准 差 为 0.67) 的 正 态 分 布 ， 样 本 数据 如 表 7.4 所 示 。 


表 7.4 2012 年 北京 市 新 建 住宅 价格 指数 


有 3 月 Is Te 17 有 A Ts 月 [9 月 [on 





原 假设 为 样本 均值 等 于 102.4， 使 用 已 经 编写 好 的 函数 z.test()， 进 行 均值 的 Z 检 验 : 


SIbj=e(L02 S5102 .47102307L01:8, 10 901028 7 L0237 L102.57L02060/40218/1084s104.23 
> z.test (x=bj,mu=102.4,sigma=0.67,alternative="two.sided") 

Smean 

网 可 “02 


$2 
[1] 0.6894 


$P 
[1] 0.4906 


使 用 程序 包 BSDA 中 的 函数 ztest0， 我 们 也 可 以 得 到 完全 相同 的 结果 : 


>library (BSDA) 
> z.test (x=bj,mu=102.4,sigma.x=0.67,alternative="two.sided") 


One-sample z-Test 


data: bj 

z= 0.6894, p-value = 0.4906 

alternative hypothesis: true mean is not equal to 102.4 
95 percent confidence interval: 

102.1543 102.9124 

sample estimates: 

mean of x 

102.5333 
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检验 的 结果 是 ， 由 于 P =0.4906>Q =0.05， 因 此 在 0.05 的 显著 性 水 平 下 ， 不 能 拒绝 原 假设 ， 
认为 2012 年 各 月 北京 的 新 建 住宅 价格 指数 服从 均值 为 102.4 的 正 态 分 布 。 


(2) co 未 知 


在 实际 问题 中 ， 正 态 总 体 的 方差 通常 是 未 知 的， 因而 在 瓦 : =J 下 ， 对 样本 均值 应 该 进行 


天 一 和 


S/n 


因此 + 检验 的 拒绝 域 为 |T|>tjs(n-1) 。 若 是 单 侧 检 验 ， 其 拒绝 域 为 T>1,(n-D) 或 
Tg nl) 


了 和 二 





~t(n—1) 


方差 未 知 的 情形 在 R 中 实现 起 来 比较 简单 ， 直 接 调用 上 检验 函数 ttestO 即 可 。 


t.test(x, y = NULL, alternative = c("two.sided", "less", "greater"), 
mu = 0, paired = FALSE, var.equal = FALSE, conf.level = 0.95, ...) 


其 中 ，x 为 样本 数据 ， 若 仅 出 现 x， 则 进行 单 样本 t 检 验 ， 若 x 和 y 同时 输入 ， 则 做 双 样 本 t 
检验 ，alternative 用 于 指定 所 求 置信 区 间 的 类 型 ， 默 认为 two.sided， 表 示 求 双 尾 的 置信 区 间 ， 若 
为 less 则 求 置信 上 限 ，greater 求 置信 下 限 ; mu 表示 均值 ， 表 示 原 假设 中 事先 判断 的 均值 ， 默 认 
值 为 0; paired 是 逻辑 值 ， 表 示 是 否 进行 配对 样本 上 检验 ， 默 认为 不 配对 ; varequal 也 是 逻辑 值 ， 
表示 双 样 本 检验 时 两 个 总 体 的 方差 是 否 相等 ; 另外 , 这 个 函数 还 可 以 直接 计算 置信 区 间 , conf.level 
用 来 表示 区 间 的 置信 水 平 。 


前 面 提 到 过 ， 均 值 的 区 间 估 计 与 假设 检验 有 着 紧密 的 内 在 联系 ， 它 们 本 质 上 是 对 一 个 问题 从 
不 同 角 度 进 行 讨 论 ， 这 也 解释 了 为 什么 函数 ttest0 既 可 以 做 区 间 人 估计， 也 可 进行 假设 检验 。 


若 上 例 中 ， 我 们 事先 并 不 知道 新 建 住宅 价格 指数 的 总 体 方差 ， 就 需要 用 上 检验 来 判断 样本 是 
否 服从 均值 为 102.4 的 正 态 分 布 。 
> 七 .test (x=bj,mu=102.4) 
One Sample t-test 


data: bj 

t = 0.6701, df = 11, p-value = 0.5166 

alternative hypothesis: true mean is not equal to 102.4 
95 percent confidence interval: 

L102.1 103.0 

sample estimates: 

mean of x 

00D 
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检验 的 结果 表示 : t 统计 量 的 值 为 0.6701， 由 于 P=0.5166>Q =0.05， 因 此 在 0.05 的 显著 性 水 
平 下 , 不 能 拒绝 原 假 设 , 认为 2012 年 各 月 北京 的 新 建 住宅 价格 指数 服从 均值 为 102.4 的 正 态 分 布 。 
7.2.2 方差 oo? 的 检验 

首先 ， 写 出 检验 的 原 假设 和 备 择 假设 : 

双 侧 检验 : Ho: oo?*=02, 局:a2 关 al 

单 侧 检验 : Ho: ao 和 ol Hi: o>oi 或 Hu:o’>02, Hi:o’*<o? 

(1) 人 已 知 

1 < 

当 均 值 已 知 时 ， 在 有 o: o =o6 下， 根据 2 的 极 大 似 然 估计 = 二 和 (Xi 一 1) ， 有 

i=] 


和 2 
no 

X =— ~ YX (n) 
oO 


这 就 转化 为 卡 方 检验 的 问题 ， 用 统计 量 入 来 确定 拒绝 域 ， 双 侧 检 验 的 拒绝 域 为 入 > Yan(n) 
或 XY > 裕 w(n); 左 侧 检 验 的 拒绝 域 为 x? > 双 (n); 右 侧 检验 的 拒绝 域 为 x? < xi。(n) 。 
(2) 人 上 未知 
实际 中 更 为 常见 的 情况 是 总 体 均值 未 知 的 检验 ，o? 的 极 大 似 然 估计 为 样本 方差 S$* 。 当 原 假 
设 为 真 时 ， 有 
—1)S? 
和 a (n , 
0 
可 见 ， 总 体 均值 未 知 与 均值 已 知 的 唯一 不 同 是 ， 卡 方 检验 的 自由 度 变 为 n 一 1， 从 而 双 侧 检验 


的 拒绝 域 为 Xx*> X2s(n 一 ]) 或 XY* > 旭 w(n 一 1); 左 侧 检验 的 拒绝 域 为 Xx* > xX:(n 一 1); 右 侧 检验 
的 拒绝 域 为 xX? < 刘 。(n 一 1)。 


~ (n-l) 


R 中 没有 直接 的 函数 可 以 做 样本 方差 的 卡 方 检验 (只 有 检验 卡 方 分 布 的 函数 ), 所 以 我 们 把 上 
述 两 种 情形 写 在 同一 个 函数 chisq.vartestO0 中 ， 调 用 它 就 可 以 直接 做 各 种 情形 的 单 样本 方差 检验 。 


chisq.var.test=function (xrVarrmu=Inf,alternative="two.sidqed"){ 
n=length (x) 


df=n-1 # 均 值 未 知 时 的 自由 度 
V=Var (xX) 井 均 值 未 知 时 的 方差 估计 值 
# 总 体 均值 已 知 的 情况 


if (mu<Inf) {df=n;v=sum( (x-mu) ^2) /n} 
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chi2=df*v/var ## 卡 方 统计 量 

options (digits=4) 

result=1ist () # 产 生存 放 结 果 的 列表 
result$df=df;result$var=v;result$chi2=chi2，; 

result$P=2*min (pchisq (chi2,df),pchisg(chi2,df,1ower.tail=F)) 
# 若 是 单 侧 检验 ， 重 新 计算 了 值 


if(alternative=="greater") result$P=pchisqg (chi2,df,1lower.tail=F) 
else if(alternative=="]less") result$P=pchisg (chi2, df) 
result 


方差 检验 函数 chisq.vartestO0 的 输入 参数 为 : 样本 x; 原 假设 的 方差 值 var， 总体 均值 mu， 设 
置 的 默认 值 为 hf， 表示 均值 未 知 的 情况 ， 若 均值 已 知 ， 输 入 时 改变 参数 值 即 可 ; alternative 表示 
单 侧 检 验 还 是 双 侧 检验 。 将 此 函数 应 用 到 2012 年 北京 市 新 建 住宅 价格 指数 的 案例 中 ， 如 果 样 本 


方差 保持 在 一 定 范围 内 ， 则 说 明 房价 比较 稳定 ， 因 此 我 们 在 0.05 的 显著 性 水 平 下 检验 总 体 方差 是 
否 不 超过 0.25。 


已,:o 20.25, H,:o’ <0.25 


> chisq.var.test (bj,0.25,alternative="less") 
$df 

FY 型 

$var 

{11] O054752 

$chi2 

[3 20:91 

SP 

[1] 0.9656 


检验 的 结果 为 P 值 非常 大 ， 远 大 于 w =0.05， 因 此 不 能 拒绝 原 假设 ， 说 明 新 建 住宅 价格 指数 
的 方差 大 于 0.25， 变 动 很 大 。 


7.3 两 正 态 总 体 的 检验 


单 正 态 总 体 的 假设 检验 需要 事先 提出 一 个 合理 的 参数 值 作为 原 假设 ， 但 是 实际 工作 中 很 难 找 
到 一 个 具有 实际 意义 的 值 ， 所 以 我 们 常常 选取 两 个 样本 ， 就 像 做 生物 实验 一 样 ， 一 个 作为 实验 组 ， 
另 一 个 作为 对 照 组 。 例 如 ， 一 所 学 校 的 重点 班 和 普通 班 学 生 的 平均 成 绩 是 否 有 显著 的 差异 ， 就 需 
要 检验 两 个 总 体 的 情况 。 

设 交 与 了 是 两 个 独立 的 总 体 ， 瑟 ~ NU) 了 ~ NO az) ， 忆 , 守 各 是 来 自 总 体 束 
的 样本 ， 马 , 兄 …;, 世 ;是 来 自 总 体 了 的 样本 ， 它 们 的 均值 分 别 为 元 和 闻 ， 方 差分 别 为 8 和 82 。 


两 正 态 总 体 的 假设 检验 同样 需要 分 情况 讨论 ， 即 在 不 同 检验 条 件 下 选取 不 同 的 检验 方法 ， 首 
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先 我 们 将 这 些 方法 在 表 7.5 中 做 一 总 结 ， 然 后 再 逐一 展开 介绍 。 
表 7.5 单 正 态 总 体 的 假设 检验 方法 


ET 


比较 两 总 体 均值 方差 加 、 3 已 知 Z 检 验 ztestO 


(程序 包 BDSA) 
比较 两 总 体 均 值 淮 差 or : eA 未 知 但 相等 1 检验 





> > 3 a t.test() 
比较 两 总 体 均值 方差 of? 、 az 未 知 且 不 等 CR 自 带 函数 ) 


REN | | 


此 可 两 休 庆 
比率 精确 检验 二 项 分 布 检验 binom.test() 
比率 近似 检验 (样本 量 较 小 ) 正 态 检 验 prop.test() 


7.3.1 均值 差 4 一 4 的 检验 
首先 ， 提 出 三 种 形式 下 的 原 假设 和 备 择 假 设 
双 侧 检验 : Ho: 4 一 =0,Hi:4 一 KH,*0 








单 侧 检验 : Ho: 44 一 L220, Hi:p-1<0 或 Ho: pW-p<0, Hi:p-p>0 
与 区 间 估 计 一 样 ， 分 三 种 情况 讨论 。 

(1) 两 个 总 体 的 方差 of 、o2 已 知 

当 两 个 总 体 方差 已 知 时 ， 在 原 假设 = KH, 下 ， 可 以 构造 服从 正 态 分 布 的 统计 量 


Fe N(0,1) 
ET 
nn 7 


因此 ， 双 侧 检 验 的 拒绝 域 为 |Z|> Z。， ; 单 侧 检验 的 拒绝 域 为 Z> Z. 或 Z<-Z. 。 我 们 可 以 自 
己 编写 均值 差 的 正 态 检验 函数 ztest20， 其 与 单个 总 体 均值 检验 的 函数 非常 类 似 。 


z.test2=function (x, y, sigmal,sigma2,alternative="two.sided"){ 
nl=length (x) ;n2=length (Y) 


result=list () # 构 造 一 个 空 的 1ist， 用 于 存放 输出 结果 
mean=mean (x) -mean (y) 

z=mean/sqrt (sigmal^2/nl+sigma2^2/n2) # 计 算 z 统计 量 的 值 
options (digits=4) # 结 果 显 示 至 小 数 点 后 4 位 


result$mean=mean; result$z=z # 将 均值 、z 值 存 入 结果 
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result$P=2*pnorm(abs (z), lower .tail=FALSE) # 根 据 z 计 算 P 值 
# 藻 是 单 侧 检验 ， 重 新 计算 了 值 
if(alternative=="greater") result$P=pnorm(z) 


else if(alternative=="less") result$P=pnorm(z,lower.tail=FALSE) 
result 


} 


输入 参数 为 来 自 两 个 总 体 的 样本 x 和 y， 以 及 两 个 总 体 的 标准 差 ，alternative 指定 检验 类 型 ， 
默认 为 two.sided， 表 示 双 侧 检 验 ( 有 Hi :4 一 全 天 0)，greater 表示 右 侧 检验 (已 :由 一 各 >0) ，less 
表示 左 侧 检验 (局 :4 一 人 <0)。 


7.2.1 节 介绍 的 程序 包 BDSA 中 的 函数 z.test(0) 可 以 快速 地 实现 方差 已 知 时 两 总 体 均值 差 的 假设 
检验 ， 参 数 设置 如 下 : 


z.test(x, y = NULL, alternative = "two.sided", mu = 0, sigma.x = NULL, 
sigma.y = NULL, conf.level = 0.95) 
首先 通过 参数 x 和 y 指定 两 个 待 检验 样本 ; alternative 指定 检验 类 型 ， 用 法 与 ztest20 相 同 ; 
mu 指定 原 假设 中 均值 差 的 值 ， 默 认为 0;，sigma.x 和 sigma.y 分 别 指定 已 知 的 两 个 样本 总 体 的 标准 差 。 


以 6.3.1 节 Bamberger’s 百货 公司 的 数据 为 例 ， 公 司 实施 延长 营业 时 间 的 改革 计划 ,假设 已 知 
改革 前 后 销售 额 的 总 体 标准 差分 别 为 8 和 12, 检验 这 项 措施 对 销售 业绩 是 否 有 显著 影响 。 我 们 希 
望 能 够 得 到 延长 营业 时 间 后 销售 额 更 高 的 结论 ， 因 此 原 假设 和 备 择 假 设 为 


Ho: pH-H20, Hi:p-pH<0 
这 时 应 该 进行 左 侧 检验 , 分 别 用 我 们 自己 编写 的 函数 和 程序 包 BDSA 中 的 函数 z.test0 来 实现 
这 一 检验 。 


> sales=read.table("d:/data/sales.txt",header=T) 
> attach (sales) 
> z.test2 (prior,post,8,12,alternative="less") 


Smean 

[1] -24.54 
$2z 

[1] -8.843 
SP 


[1] 4.678e-19 


使 用 函数 z.test0 可 以 得 到 相同 的 结果 ， 同 时 还 可 以 输出 置信 区 间 估 计 。 


> z.test (prior,post, sigma.x=8,sigma.y=1l2,alternative="less") 
Two-sample z-Test 


data: prior and post 
Zz = -8.8425, p-value < 2.2e-16 
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alternative hypothesis: true difference in means is less than 0 
95 percent confidence interval: 
NA -19.97758 
sample estimates: 
mean of x mean of y 
60.61222 S5 汪 5SL9 


结果 两 总 体 均值 差 的 Z 检 验 统计 量 为 到 一 8.843， 对 应 的 尸 值 非常 小 ， 因 此 在 0.05 的 显著 性 
水 平 下 应 当 拒 绝 原 假设 ， 表 明 延 长 营业 时 间 后 销售 额 更 高 。 


(2) 两 个 总 体 的 方差 o? 、 3 未 知 但 相等 
上 一 章 介绍 过 ， 当 两 个 正 态 总 体 的 方差 已 知 且 相等 ， 原 假设 为 真 时 可 以 构造 服从 + 分 布 的 统 
计量 


7 CD pe) 


EE 守 
nm 7 


"l(a —1)S? 二 /14, 二 1)S2 
n+n,—2 


~t(n +n,—2) 


其 中 ，S? 


双 侧 检验 的 拒绝 域 为 [7|>i6s(m + -2);， 单 侧 检 验 的 拒绝 域 为 T>t(m + 一 2) 或 
T<-t, (n+n,—2)., 
(3) 两 个 总 体 的 方差 o? 、o2 未 知 且 不 等 
当 两 总 体 的 方差 未 知 并 且 不 等 时 ， 根 据 样本 方差 ， 可 以 近似 得 到 服从 + 分 布 的 统计 量 
r= -Ds) 
D3 
Nh 


~t(y) 


其 中 ,的 估计 值 是 


2 
> (有 可 | /Gmy, (2 /my 
Wm n> nm—l n,—1 


双 侧 检验 的 拒绝 域 为 |7|> tj,(?);， 单 侧 检验 的 拒绝 域 为 T>t,(2) 或 7 <-t,2)。 





总 体 方差 未 知 的 上 + 检验 在 R 中 可 以 直接 利用 ttest0 完 成 对 假设 的 检验 。 在 Bamberger’s 公司 的 


146 ”数据 分 析 : R 语言 实战 


案例 中 ， 如 果 改 革 前 后 总 体 的 方差 未 知 并 且 不 相等 ， 我 们 就 可 以 通过 t.test0 直 接 做 假设 检验 了 ， 
将 参数 varequal 设 为 F。 


> 七 -test (prior,post,var.equal=FALSE,alternative="less") 
Welch Two Sample t-test 


data: prior and post 
t = -8.3792, df = 43.567, p-value = 6.257e-11 
alternative hypothesis: true difference in means is less than 0 
95 percent confidence interval: 
-Tnf -L962045 
sample estimates: 
mean of x mean of y 
60.61222 85.15519 


结果 显示 已 = 6.257e-11 < 6 =0.05， 因 此 在 0.05 的 显著 性 水 平 下 应 当 拒 绝 原 假设 ， 表 明 延 长 
营业 时 间 后 销售 额 更 高 。 


7.3.2 ”成 对 数据 的 上 检验 


两 样本 的 均值 检验 还 有 一 种 特殊 情况 ， 数据 是 成 对 出 现 的 ， 即 (所 ,了 ),G=12,…,m) ， 两 个 样 
本 的 容量 相等 。 就 像 实验 中 实验 组 与 对 照 组 除数 据 外 ， 其 他 条 件 需 要 保持 一 致 ， 才 能 够 得 到 成 对 
的 数据 。 

设 针 ,了 XX,,…, 了 XX, 是 来 自 总 体 蕊 的 样本 ， 马 , 互 … 互 是 来 自 总 体 了 的 样本 ， 令 Z,=X, 一 了 了， 
(=1,2,5,)， 记 = 一 4,07 =f+023， 则 Zi,2Z3,…,2, 服 从 正 态 总 体 Z ~ Na2) ， 因 而 成 
对 数据 的 检验 其 实 就 相当 于 对 Z 作 单 样本 均值 检验 ， 可 以 构造 统计 量 


_ 2=0 


Sn 


在 R 中 ,利用 函数 ttest0 就 可 以 直接 进行 成 对 数据 的 1 检验 ， 只 需要 增加 参数 paired=TRUE 
即 可 。 配 对 检验 主要 应 用 于 生物 统计 和 医学 统计 领域 ， 下 面 通过 例子 来 具体 说 明 。 


为 研究 某 药 物 对 高 血压 病人 的 治疗 作用 ， 用 20 名 患者 分 组 配对 ， 分 别 为 安慰 剂 组 和 药物 组 ， 
测 得 血压 值 如 表 7.6 所 示 。 





~t(n—1) 


表 7.6 某 药 物 对 患者 血压 的 影响 数据 


a | TI Ti Tio Ti [rs [mw [Tm Tm | 
a | rr 


为 测定 该 药物 是 否 有 降 压 作用 ， 原 假设 为 药物 无 作用 ， 即 安慰 剂 组 的 均值 小 于 药物 组 ， 采 用 
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右 侧 检 验 。 在 R 中 输入 以 下 代码 : 


> x= (L117; L127 141, 407,110, L114,115;138;1277 122) 
> y=c(113,108,120,107,104,98,102;132;,120,114) 
> t.test(x,y,paired=TRUE,alternative="greater") 


Paired t-test 


data: x and y 
t= 4.5856, df = 9, p-value = 0.0006586 
alternative hypothesis: true difference in means is greater than 0 
95 percent confidence interval: 
6.002487 Inf 
sample estimates: 
mean of the differences 
10 


检验 的 结果 显示 ，P 值 远 小 于 w = 0.05， 因 此 拒绝 原 假设 ,说 明 药物 组 的 均值 明显 降低 ， 该 
药物 有 降 压 作用 。 
此 外 ， 程 序 包 DAAG 中 的 函数 onesamp() 专 门 用 于 成 对 样本 的 上 检验 ， 其 调用 格式 如 下 


onesamp (dset, x="unsprayed", y="sprayed", xlab=NULL, ylab=NULL, dubious=NULL, 
conv=NULL, dig=2) 


其 中 ，dset 是 一 个 具有 两 列 的 矩阵 或 数据 框 ;x 是 dset 的 其 中 一 列 ， 发 挥 “ 预 测 ” 作 用 ; y 
是 男 一 列 ， 发 挥 “ 响 应 ”作用 ; dubious 是 逻辑 值 (FALSE/TRUE) 向 量 ， 以 省 略 指 定 的 点 ; conv 
指定 缩放 系数 ， 并 应 用 于 数据 。 


7.3.3 ”两 总 体 方差 的 检验 
假设 两 个 样本 分 别 来 自 总 体系 了 且 独 立 ， 通 过 检验 比较 它们 的 方差 ， 首 先 提 出 假设 
双 侧 检验 : Ho: o? =02, Hi:or? 02 
单 侧 检验 : Hl: o7? <o?2， Hi:o? >07 或 Hy: of 20;, Hi:or <o? 
实际 问题 中 的 总 体 均 值 通常 是 未 知 的 ， 那 么 当 本 为 真 时 ， 有 
2 


F = ~ Fn- 


2 


通过 FF 分 布 来 确定 拒绝 域 ， 双 侧 检 验 的 拒绝 域 为 fF>Fs(m 一 l,m 一 1) 或 
> Fp(m 一 1,n, 一 了) ; 右 侧 检验 的 拒绝 域 为 F> (ni 一 1,n, 一 1); 左 侧 检验 为 FF>F,(nm 一 1,n, 一 1)。 


R 中 的 函数 var.test0 可 以 做 方差 比较 的 检验 以 及 相应 的 区 间 估 计 , 其 调用 格式 在 6.3.2 节 中 
已 经 介绍 过 。 仍 以 Bamberger's 公司 的 数据 为 例 ， 如 果 想 要 考察 延长 营业 时 间 前 后 周 营 业 额 的 波 
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动情 况 是 否 一 致 ， 可 以 通过 书 检 验 完 成 。 


> var.test (prior,post) 
F test to compare two variances 


data:;: prior and post 
F = 0.3889, num df = 26, denom df = 26, p-value = 0.01914 
alternative hypothesis: true ratio of variances is not equal to 1 
95 percent confidence interval: 
0.1772458 0.8534348 
sample estimates: 
ratio of variances 
0.3889315 


检验 结果 的 P =0.01914<w = 0.05 ， 故 拒绝 原 假设 ， 说 明 延 长 营业 时 间 前 后 销售 额 的 方差 不 
相同 。 


7.4 比率 的 检验 

总 体 比率 是 研究 在 一 个 总 体 中 具有 某 种 特征 的 个 体 所 占 比 值 的 问题 ， 从 概念 上 就 可 以 发 现 ， 
它 与 二 项 分 布 模型 有 着 密切 的 联系 。 假 设 昼 ,于 …, 思 分 别 是 来 自 伯 努 利 分 布 〈 两 点 分 布 ) 的 独 
立 样本 ， ,~ binom(1,p) ， 那 么 根据 分 布 性 质 可 以 得 到 7 = ,~ binom(m, p) ， 即 样本 取信 之 
和 服从 二 项 分 布 ， 其 中 的 参数 即 我 们 所 要 检验 的 比率 。 首 先 提出 假设 

双 侧 检验 : Ho :p= Po Hi:p#z po 

单 侧 检验 : Ho:p<po, Hi:p>po 或 Ho:p>po, Hi:p<p, 


7.4.1 比率 的 二 项 分 布 检验 


根据 上 面 的 理论 ， 我 们 可 以 对 比率 p 的 取 值 作 比 较 精 确 的 检验 ， 即 检验 统计 量 了 是 否 服从 参 
数 为 p 的 二 项 分 布 。 在 R 中 使 用 函数 binom.test0 完 成 : 


binom.test (x, nr P = 0.5, alternative = c("two.sided", "less", "greater"), conf.level = 0.95) 


其 中 ,，n 是 样本 总 数 ，x 是 样本 具有 某 种 特征 的 个 体 数 ， 也 可 以 将 这 两 个 值 都 存放 在 二 维 向 
量 x 中 ， 这 时 n 忽略 ; p 值 为 原 假设 中 的 概率 值 。 使 用 6.4 节 中 的 案例 ，2000 户 家 庭 中 人 均 不 足 
5 平米 的 困难 户 有 214 个 ， 政 府 希望 将 总 体 中 困难 户 的 比率 控制 在 10% 左 右 ， 可 通过 假设 检验 来 
判断 这 一 目标 是 否 达到 。 

> binom.test (214,2000,p=0.1) 


Exact binomial test 
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data: 214 and 2000 

number of successes = 214, number of trials = 2000, p-value = 0.2966 
alternative hypothesis: true probability of success is not equal to 0.1 
95 percent confidence interval: 

0.09378632 0.12137786 

sample estimates: 

probability of success 

0.107 


由 于 P=0.2966> w = 0.05 , 故 不 能 拒绝 原 假设 ,说 明 总 体 居民 的 困难 户 比 率 保 持 在 10% 左 右 。 
除了 P 了 值 ， 检 验 结果 还 给 出 了 置信 区 间 和 样本 比率 估计 值 0.107。 


7.4.2 ”比率 的 近似 检验 


二 项 分 布 检验 是 比率 的 精确 检验 ， 适 用 于 样本 量 较 小 的 情况 。 但 上 一 章 提 到 过 ， 当 样本 量 足 
够 大 时 ， 根 据 中 心 极限 定理 可 知 样本 比率 的 抽样 分 布 近似 服从 正 态 分 布 ， 从 而 可 转化 为 正 态 分 布 
检验 的 问题 。 因 为 在 原 假设 p = Po 下， 我 们 可 以 构造 出 统计 量 

Pp-—po 
VPoll— po)/n 

R 语言 中 实现 比率 的 近似 正 态 检验 的 函数 是 prop.test()，6.4 节 介 绍 了 其 调用 格式 。 

大 样本 通常 指 样本 容量 大 于 30， 在 上 面 的 案例 中 ， 样 本 量 为 2000， 因 此 可 以 使 用 正 态 检验 
方法 代替 二 项 分 布 。 


> prop.test (214,2000,p=0.1) 


~ N(0,1) 


l-sample proportions test with continuity correction 


data: 214 out of 2000, null probability 0.1 
xX-squared = 1.0125, df = 1, p-value = 0.3143 
alternative hypothesis: true p is not equal to 0.1 
95 percent confidence interval: 

0.09396256 0.12157198 

sample estimates: 


Pp 
0.107 


正 态 检验 的 P 值 = 0.3143 > ga =0.05, 故 不 能 拒绝 原 假设 , 说 明 总 体 居民 的 困难 户 比率 保持 在 
10% 左 右 。 


7.5” 非 参数 的 检验 
上 面 介绍 的 在 总 体 分 布 形式 已 知 的 情况 下 ， 对 总 体 分 布 的 参数 如 均值 、 方 差 等 进行 推断 的 方 


法 统称 为 参数 检验 。 但 在 实际 的 数据 分 析 过 程 中 ， 由 于 种 种 原因 ， 人 们 往往 无 法 对 总 体 分 布 形态 
作 简 单 假 定 ， 此 时 参数 检验 的 方法 就 不 再 适用 了 。 基 于 这 种 考虑 ， 非 参数 检验 可 以 在 总 体 方差 未 
知 或 知道 甚 少 的 情况 下 ， 利 用 样本 数据 对 总 体 分 布 形 态 等 进行 推断 。 非 参数 检验 是 统计 分 析 方 法 
的 重要 组 成 部 分 ， 它 与 参数 检验 共同 构成 统计 推断 的 基本 内 容 。 由 于 非 参数 检验 方法 在 推断 过 程 
中 不 涉及 有 关 总 体 分 布 的 参数 ， 因 而 得 名 为 “ 非 参数 ”检验 。 

非 参数 检验 的 优点 可 以 总 结 为 3 点 : 

1. 检验 条 件 宽 松 ， 适 用 范围 宽 。 它 适合 处 理 如 非 正 态 的 、 方 差 不 等 的 或 者 分 布 形状 未 知 的 数 
据 检 验 。 

2. 检验 方法 灵活 ， 用 途 广泛 。 它 不 但 可 以 处 理 测量 层次 较 高 的 定 距 、 定 比 数据 ， 也 可 以 处 理 
层次 较 低 的 定 类 、 定 序数 据 。 

3. 检验 计算 简单 。 由 于 自由 分 布 的 检验 方法 不 用 复杂 计算 ， 因 此 非 参数 检验 比较 直观 。 

统计 中 的 非 参数 统计 方法 有 很 多 ， 涉 及 范围 较 广 ， 这 里 我 们 简要 介绍 几 种 在 R 软件 中 应 用 较 
多 的 非 参 数 检验 。 
7.5.1 总 体 分 布 的 x 检验 

在 第 5 章 ， 我 们 介绍 了 用 直方 图 、QQ 图 和 经 验 分 布 图 等 方式 来 描述 观测 数据 是 否 服从 某 种 
分 布 , 更 进一步 的 方法 ,可 以 通过 参数 检验 来 完成 分 布 的 拟 合 优 度 检验 ， 如 前 几 章 介绍 过 的 W 正 
态 检验 、K-S 检验 等 。 参 数 检验 认为 样本 具有 某 种 指定 的 分 布 形式 ， 只 是 其 中 的 一 些 参 数 未 知 ， 
因此 要 检验 的 假设 是 某 个 参数 落 在 特定 范围 内 。 接 下 来 我 们 要 介绍 如 何 使 用 非 参数 统计 方法 检验 
观测 数据 是 否 服从 某 种 分 布 ， 其 假设 不 再 是 针对 具体 参数 ， 而 是 针对 分 布 类 型 ， 需 要 分 两 种 情况 
讨论 。 

(1) 理论 分 布 已 知 

已 知 随机 变量 邓 应 服从 分 布 亚 ， 现 得 到 子 的 一 个 样本 数据 卫 , 闭 ,,…, 了 , ， 对 它 做 非 参 数 卡 
方 检验 ， 首 先 确定 原 假 设 为 

有 H,: 了 具有 分 布 所 
因此 ， 备 择 假设 为 
书 :， 不 具有 分 布下 
对 该 假设 的 检验 方法 如 下 。 首 先 将 数 轴 ( 一 co, co) 分 成 m 个 区 间 : 


1=(-%,a),L, =[@,4,),…, 7, =[4, 1,°) 
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记 样本 落 在 这 些 区 间 的 理论 概率 分 别 为 
ys oe se p;= P{X el1},i=1,2,.…,m 


那么 在 原 假设 下 ， 样本 头 |, 半 ,,…, 了 , 落 入 区 间 £, 内 的 个 数 的 期 望 值 为 np ， 记 至 分 别 为 样本 
落 入 区 间 1; 的 实际 个 数 ， 因 此 n; 和 np 的 差距 即 可 视 为 理论 值 与 观测 值 之 间 的 偏差 ， 由 此 得 到 
Pearson Xx” 统计 量 


(nn, —np,) 
K= Bi 
i=l Pi 


Pearson 证 明 在 原 假 设 成 立 的 条 件 下 ， 当 妹 _> co 时 , 天 依 分 布 收敛 于 自由 度 为 六 一 1 的 和 分 
布 。 基 于 这 一 原理 ， 可 以 引进 一 个 大 样本 检验 : 给 定 显著 性 水 平 4 ,车 天 > x (m 一 1) ， 则 拒绝 原 
假设 。 这 就 是 Neyman-Pearson 拟 合 优 度 卡 方 检验 。 


根据 天 值 ， 我 们 可 以 进一步 得 到 检验 的 P 值 ， 比 较 P 值 和 显著 性 水 平 4 来 判断 是 否 接 受 原 
假设 会 更 加 容易 。 


P=P{xi(m-1)<K) 
尸 值 越 大 ， 越 支持 原 假设 为 真 ; 反之 ， 当 尸 值 < a 时， 就 应 拒绝 原 假设 。 
R 软件 中 提供 了 实现 Pearson 拟 合 优 度 卡 方 检 验 的 函数 chisq.test()， 其 调用 格式 为 


chisq.test(x, y = NULL, correct = TRUE，P = repl(l/length(x), length (x)), 
rescale.p = FALSE, simulate.p.value = FALSE, B = 2000) 
其 中 ,x 是 样本 数据 的 向 量 或 矩阵 ;y 是 与 x 长度 相同 的 向 量 , 当 x 是 矩阵 时 忽略 参数 y; correct 
是 逻辑 变量 ， 说 明 计 算 检验 统计 量 时 是 否 进行 连续 修正 ， 默 认为 TRUE， 即 修正 ; p 是 原 假设 落 
在 区 间 浆 内 的 理论 概率 ， 默 认 值 表示 假设 样本 服从 均匀 分 布 ;， rescale.p 也 是 逻辑 变量 ， 默 认 值 为 


FALSE， 要 求 输入 的 概率 值 满足 > p; = 1 ， 若 不 满足 将 报错 ， 若 rescale.p=FALSE 则 不 要 求 这 一 


el 
点 ， 当 Pp 值 之 和 不 等 于 1 时 ,程序 将 重新 计算 p; simulate.p.value 是 逻辑 值 (默认 为 FALSE)， 当 
它 为 TRUE 时 ， 将 采用 仿真 方法 计算 p 值 ， 这 时 ， 参 数 B 指定 仿真 的 次 数 。 


下 面 通过 案例 来 说 明 非 参数 卡 方 检验 的 实际 应 用 。 在 7.2.1 节 中 ， 提 到 了 2012 年 北京 市 新 建 
住宅 价格 指数 的 案例 (数据 如 表 7.7 所 示 )， 接 下 来 用 Pearson % 检验 来 判断 北京 新 建 住宅 价格 指 
数 是 否 服从 正 态 分 布 。 
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表 7.7 2012 年 北京 市 新 建 住宅 价格 指数 


1 月 [2 月 Ta 有 [4 月 [5 月 [6 有 17 月 [6 月 [9 月 10 有 


根据 上 面 的 理论 ， 非 参数 卡 方 检验 应 分 4 个 步 又 进行 ， 分 别 编写 R 语句 来 实现 。 
第 一 步 ， 直 接 输入 数据 向 量 bj， 同 时 可 以 绘制 直方 图 ， 帮 助 我 们 对 数据 的 分 布 形态 有 初步 了 













> bj=e(102.5.102.4,102.0,101 .8710178;102.1, 102#3;102.5,102.6; 102 .8,103.4;104.2) 


> hist(Bi) 
绘制 结果 如 图 7.3 所 示 。 
Histogram of bj 
0 
苹 
的 
各 9 
Eo 
庆 = 
OO 





1015 1020 1025 1030 1035 1040 1045 
图 7.3 北京 市 新 建 住宅 价格 指数 直方 图 
第 二 步 ， 对 数据 进行 分 组 ， 计 算 各 组 的 频数 ， 从 而 得 到 样本 落 入 各 区 间 的 实际 个 数 n, 。 分 组 
主要 依靠 观察 图 形 后 的 主观 判断 ， 例 如 我 们 把 数据 分 成 4 组 : 其 中 4={101.5< 对 <102.0}， 
4 ={102.0<X<102.5}, 4 ={102.5< 久 <103.0}, 4 = 和 103.0< 针 <104.5} 。 在 R 中 实现 这 一 过 
程 需要 用 到 函数 table0 和 cutO0， 下 面 简要 介绍 这 两 个 函数 的 用 法 。 


首先 函数 cutO 用 于 将 变量 的 区 域 分 成 若干 区 间 ， 其 调用 格式 为 


cut (x, breaks, labels = NULL, include.lowest = FALSE, 
right = TRUE, dig.lab = 3, ordered result = FALSE, ...) 


其 中 ，x 是 数据 向 量 ; breaks 是 表示 区 间 端 点 的 数值 向 量 ， 可 简写 为 br。 
而 函数 tableO 可 以 计算 因子 合并 后 的 个 数 ， 以 列 联 表 的 形式 展示 出 每 个 区 间 的 数据 频数 。 


table(..., exclude = if (useNA == "no") c(NA, NaN), useNA = c("no","ifany", "always"), 

dnn = list.names(...), deparse.level = 1) 

其 中 参数 exclude 指定 需要 剔除 的 因子 水 平 ， 如 果 设 置 为 NULL， 则 意味 着 参数 useNA= 
“always”。 需 要 注意 的 一 点 是 ，table 合并 的 区 间 形 式 为 “ 左 开 右 闭 ”， 所 以 下 面 设置 cutO 中 的 参 
数 breaks 时 要 做 一 些 调整 。 
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> A=table (cut (bj,breaks=c (101.4,101.9,102.4,102.9,104.5) )) # 两 个 函数 岩 套 使 用 
# 注 意 端 点 breaks 的 写法 
>A 
(101.4,101.9] (101.9,102.4] (102.4,102.9] (102.9,104.5] 
2 4 4 2 


第 三 步 ， 计 算 原 假设 条 件 下 数据 落 入 各 区 间 的 理论 值 ， 由 于 本 例 中 原 假设 是 正 态 分布 ， 所 以 
先 计 算 样 本 均值 和 标准 差 ， 再 用 正 态 分 布 函 数 pnorm() 计 算 落 入 各 小 区 间 内 的 理论 概率 p, 。 

> br=c(101.5,102,102.5,103,104.5) 

> p=pnorm (br,mean (bj),sd(bj)) # 注 意 pnorm() 计 算出 的 是 分 布 函 数 

> p=c(p[1],p[2]-p[1],p[3]-p[2],1-p[3]) 

> options (digits=2) 

> 

[4 05067 0.125370.261 0:519 

第 四 步 ， 利 用 函数 chisq.test0 完 成 Pearson 拟 合 优 度 卡 方 检验 。 

> chisq.test (A,p=p) 


Chi-squared test for given probabilities 


data: A 
X-squared = 7.5, df = 3, p-value = 0.05849 


总 体 分 布 的 卡 方 检验 结果 为 P=0.05849>Q =0.05， 因 此 在 0.05 的 显著 性 水 平 下 ， 不 能 够 拒绝 
原 假设 ， 可 以 认为 北京 市 新 建 住宅 价格 指数 服从 正 态 分 布 。 


(2) 理论 分 布依 赖 于 7 个 未 知 参数 
若 总 体 的 分 布下 依 赖 于 7x 个 未 知 参数 ,多 ,…,9. ,对 卫 的 样本 数据 关 ,, 半 ,,…,XX, 进行 非 参数 
卡 方 检验 ， 这 时 原 假设 为 


H,: 于 具 有 分 布 F(x,0,,…,0.) 


要 实现 这 一 检验 ， 首 先 需 要 根据 样本 计算 (0, 色 ,…,0.) 的 极 大 似 然 估计 (61,9;,…,0,)， 这 时 
原 假设 为 


奋 , ， XX 具 有 分 布 F(x,0,0,,…,0,) 


之 后 按照 理论 分 布 已 知 的 情况 处 理 即 可 ， 不 同 在 于 KK 统计 量 服从 自由 度 为 m 一 r 一 1 的 x 分 
布 。 : 


7.5.2 ”Kolmogrov-Smirnov 检验 


在 统计 学 中 ，Kolmogorov-Smirnov KS) 检验 基于 累计 分 布 函数 ， 用 以 检验 变量 是 否 符合 某 
种 分 布 或 比较 两 组 之 间 有 无 显著 性 差异 。KS 检验 有 单 样本 和 双 样 本 检验 之 分 。 
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(1) 单 样本 KS 检验 


Kolmogorov-Smirmnov 检验 是 用 来 检验 一 个 数据 的 观测 经 验 分 布 是 否 是 已 知 的 理论 分 布 ， 当 两 
者 之 间 的 差距 很 小 时 可 以 认为 该 样本 取 自 己 知 的 理论 分 布 。KS 检验 通过 经 验 分 布 与 假设 分 布 的 
上 确 界 来 构造 统计 量 ， 因 此 它 可 以 检验 任何 分 布 类 型 ， 原 假设 为 


五,: 了 对 具 有 分 布 所 
检验 的 统计 量 为 
Z=Vnmax( 


在 RR 中 用 函数 ks.test0 可 以 直接 得 到 KS 检验 的 结果 ，P 值 越 大 ， 越 支持 原 假 设 为 真 ， 反 之 ， 
当 尸 值 <C 时 ， 就 应 拒绝 原 假设 。R 中 自 带 的 函数 ks.test0 来 自 于 程序 包 stats， 而 程序 包 dgof 中 
也 包含 ks.test0， 两 者 的 使 用 方法 几乎 完全 相同 。 该 函数 既 可 以 进行 单 样本 的 KS 检验 ， 又 可 以 进 
行 双 样 本 检验 ， 其 调用 格式 为 


ks .test (x, y, ..., alternative = c("two.sided", "less", "greater"), exact = NULL) 


其 中 ，x 是 数据 向 量 ， 参数 y 非常 多 样 化 ， 可 以 是 一 个 数据 向 量 ， 或 是 一 个 字符 串 用 于 指定 
累积 分 布 名 称 ， 还 可 以 是 实际 的 累积 分 布 函数 ， 例 如 pnorm， 另 外 ，y 可 以 是 ecdf 函数 对 象 ， 用 
来 指定 一 个 离散 分 布 ;“...” 给 出 y 指定 分 布 的 参数 ，alternative 设置 检验 类 型 ，exact 为 NULL 
或 者 一 个 逻辑 值 ， 用 于 指定 P 值 是 否 应 该 被 计算 。 


对 一 台 设 备 进行 寿命 检验 ， 记 录 10 次 无 故障 工作 时 间 ， 检 验 其 是 否 服 从 参数 为 1/1500 的 指 
数 分 布 ， 数 据 如 下 : 


420 500 920 1380 1510 1650 1760 2100 2300 2350 


调用 函数 ks.test0) 来 完成 检验 : 
> X=c(420,500,920,1380,1510,1650,1760,2100,2300,2350) 
> ks.test (X, "pexp",1/1500) #pxep 为 指数 分 布 累积 分 布 函 数 的 名 称 ，1/1500 为 指数 分 布 参 数 


One-sample Kolmogorov-Smirnov test 


? 





F(x1) -F(x,) 








F(x,)—F(x)) 


data: X 

D = 0.3, p-value = 0.2654 

alternative hypothesis: two-sided 

单 样本 KS 检验 的 结果 为 已 值 =0.2654， 其 大 于 显著 性 水 平 0.05， 因 此 不 能 拒绝 原 假设 ,说 明 
该 设备 的 寿命 服从 4 = 1/1500 的 指数 分 布 。 


(2) 两 样本 KS 检验 


两 样本 KS 检验 由 于 对 两 样本 的 经 验 分 布 函数 的 位 置 和 形状 参数 的 差异 都 比较 敏感 ， 因 此 成 
为 比较 两 样本 的 最 有 用 且 最 常规 的 非 参 数 方法 之 一 。 
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假设 有 分 别 来 自 两 个 独立 总 体 的 两 样本 ， 要 想 检 验 它们 背后 的 总 体 分 布 是 否 相 同 ， 就 可 以 进 
行 两 独立 样本 的 KS 检验 。 原 理 与 单 样本 相同 ， 只 需要 把 原 假设 中 的 分 布 换 成 男 一 个 样本 的 经 验 
分 布 即 可 。 假 定 两 个 样本 的 样本 量 分 别 为 矶 和 7 ， 累 积 经 验 分 布 函数 分 别 为 五 (xz) 和 五 (x)， 它 


们 均 为 连续 分 布 函数 旦 未 知 ， 检 验 这 两 分 布 是 否 相 同 ， 即 原 假设 为 
H, :F(x)=b(x) 
记 疡 = 五 (x)) 一 羽 (x,) ， 检 验 统计 量 为 
Z=max|Dj i 
Z 近似 正 态 分 布 。 


举 一 个 双 样 本 KS 检验 的 实例 ， 有 分 别 从 两 个 总 体 抽取 的 25 个 和 20 个 观测 值 的 随机 样本 ， 
数据 如 表 7.8 所 示 ， 下 面 对 它 们 进行 检验 ， 判 断 它们 是 否 来 自 同一 分 布 。 


表 7.8 两 样本 KS 检验 数据 


0.61 0.29 0.06 0.59 —1.73 -0.74 0.51 -0.56 0.39 1.64 0.05 —0.06 0.64 
—0.82 0.37 1.77 1.09 —1.28 2.36 1.31 1.05 -0.32 —0.40 1.06 -2.47 


2.20 1.66 1.38 0.20 0.36 0.00 0.96 1.56 0.44 1.50 —0.30 0.66 2.31 3.29 
一 0.27 -0.37 0.38 0.70 0.52 —0.71 





在 R 中 输入 数据 并 调用 ks.testO 完 成 两 样本 检验 。 


>XX=C(0.6170.29)0.0670.59,=1.737=0.7470。.51,=0.56y0.39,1.64v0.057=0。06y 0.64， 
=0.82053771.777 1 .095=1.2872.361:31,1.05-0.327.-0 .4071.06;-2,47) 

>YY=C(2.2071.66r1L,3870.2070.3670.0070.96)1.567 0.44,1.50;-0.30;0.66,2.31, 
S329.-0.277-0.370.380.7070.527-0.71) 

> ks.test (xx, YY) 


Two-sample Kolmogorov-Smirnov test 


data: xx and yy 
D = 0.23, p-value = 0.5286 
alternative hypothesis: two-sided 


两 样本 KS 检验 的 结果 为 P=0.5286， 远 远大 于 显著 性 水 平 0.05， 因 此 不 能 拒绝 原 假设 ， 可 以 
认为 两 个 样本 来 自 同一 分 布 。 

(3) KS 检验 与 卡 方 检验 的 比较 

KS 检验 与 卡 方 检验 的 相同 之 处 在 于 它们 都 是 采用 实际 频数 和 期 望 频数 之 差 进行 检验 。 但 不 
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同 点 在 于 ， 卡 方 检验 必须 先 将 数据 分 组 才能 获得 实际 的 观测 频数 ， 而 KS 检验 法 可 以 直接 对 原始 
数据 的 个 观测 值 进行 检验 ， 所 以 它 对 数据 的 利用 更 完整 。 另 外 在 使 用 范围 上 ， 卡 方 检验 主要 用 
于 分 类 数据 ， 而 KS 检验 主要 用 于 有 计量 单位 的 连续 和 定量 数据 。 


KS 检验 作为 一 种 非 参 数 方法 ， 具 有 稳健 性 。 它 不 依赖 于 均值 的 位 置 ， 对 数据 量 纲 不 敏感 ， 
一 般 来 讲 比 卡 方 检验 更 有 效 。 与 其 他 参数 检验 不 同 ，KS 检验 的 适用 范围 非常 广 ， 不 像 上 检验 一 样 
局 限于 正 态 分 布 ( 当 数据 偏离 较 大 时 t 检 验 会 失效 )。 


ss 


方差 分 析 及 R 实现 





方差 分 析 (Analysis of Variance，ANOVA) 广泛 应 用 于 商业 、 经 济 、 医 学 、 农 业 等 诸多 领域 
的 数量 分 析 研 究 中 。 例 如 商业 广告 宣传 方面 ,广告 效果 可 能 会 受 广告 形式 、 地 区 规模 、 播 放 时 段 、 
播放 频率 等 多 个 因素 的 影响 , 通过 方差 分 析 研 究 众多 因素 中 , 哪些 是 主要 的 以 及 如 何 产生 影响 等 。 
而 在 经 济 管理 中 ， 方 差分 析 常 用 于 分 析 变 量 之 闻 的 关系 ， 如 人 民 币 汇率 对 股票 收益 率 的 影响 、 存 
贷款 利率 对 债券 市 场 的 影响 ， 等 等 。 


协 方差 是 在 方差 分 析 的 基础 上 ， 综 合 回归 分 析 的 方法 ， 研 究 如 何 调节 协 变量 对 因 变 量 的 影响 
效应 ， 从 而 更 加 有 效 地 分 析 实 验 处 理 效应 的 一 种 统计 技术 。 


本 章 将 介绍 这 两 种 分 析 方 法 的 理论 基础 及 在 R 语言 中 的 实现 。 


8.1 单 因素 方差 分 析 及 R 实现 


方差 分 析 主 要 分 为 两 类 : 单 因素 方差 分 析 和 双 因 素 方差 分 析 。 当 方差 分 析 中 只 涉及 一 个 分 类 
变量 时 ， 称 为 单 因素 方差 分 析 ， 适 用 于 单 因 素 4 拥有 两 个 以 上 水 平时 ， 研 究 各 水 平 对 因 变 量变 异 
的 影响 。 首 先 了 解 方差 分 析 中 的 一 些 基 本 术语 ， 我 们 所 要 检验 的 对 象 称 为 因素 或 因子 ， 因 素 的 不 
同 表现 称 为 水 平 ， 而 每 个 因子 水 平 下 得 到 的 样本 数据 即 观测 值 。 


8.1.1 基本 假设 的 检验 
方差 分 析 中 有 3 个 基本 假设 : 


QD 正 态 假设 。 对 于 因素 的 每 个 水 平 ， 其 观测 值 都 是 来 自 正 态 总 体 的 随机 样本 ; 
@ ”方差 齐 性 假设 。 各 个 总 体 的 方差 相同 ; 
@ ”独立 假设 。 观测 值 之 间 都 是 独立 的 。 
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设 试验 中 的 因素 为 4， 有 7 个 水 平 4,44,…,4, ， 在 每 个 水 平 下 进行 试验 得 到 结果 
Xi Xi2s.…s Xin, i 二 1,2,…,7 ， 其 被 看 作 是 来 自 第 i 个 正 态 总 体 XX, ~ N(J4,0”) ， 其 中 参数 未 知 且 每 个 
样本 都 独立 。 从 而 单 因 素 方差 分 析 的 数学 模型 可 以 表示 为 一 种 线性 模型 


Xi = H+Q +ey; i=1,2,...,7, =1,2,...,7, 


2j ~ N(0,a2?) 且 相互 独立 


r 


mt 0 


i 1 
其 中 从 是 所 有 总 体 的 均值 ，Q, = J 一 上 称 为 第 i 个 水 平 的 效应 ，6; 是 随机 误差 。 
在 进行 具体 的 方差 分 析 之 前 ， 先 对 几 条 假设 进行 检验 ， 由 于 数据 是 随机 抽取 的 ， 我 们 假设 总 
体 满 足 独立 性 ， 但 对 正 态 性 和 方差 齐 次 性 往往 没有 把 握 ， 所 以 要 进行 这 两 项 检验 。 
(1) 正 态 性 检验 


对 数据 的 正 态 性 ， 利 用 Shapiro-Wilk 正 态 检验 方法 (到 检验 )， 它 通常 用 于 样本 容量 n 志 50 
时 ,检验 样本 是 否 符合 正 态 分 布 。WV 检 验 是 建立 在 次 序 统计 量 的 基础 上 的 ， 将 n 个 独立 观测 值 按 
非 降 次 序 排列 ， 记 为 X01),X(2),…; Xin)， 构 造 历 检 验 统计 量 为 


[Dat -a 
> -x 


其 中 ,系数 a; 为 样本 容量 为 n 时 的 系数 。 可 以 证 明 ， 总体 分 布 为 正 态 分 布 时 ， 玉 的 值 应 该 接近 
1， 通 过 查 表 可 以 获得 万 统计 量 的 Q 分 位 数 矿 。 ， 当 丈 和 玫 。 时, 在 显著 性 水 平 & 下 应 拒绝 原 假设 ， 
说 明 所 检验 的 数据 不 服从 正 态 分 布 ， 当 歼 > 所, 时， 无 法 拒绝 原 假设 ， 则 数据 服从 正 态 分 布 。 


W 


在 R 软件 中 ,函数 shapiro.test0 提 供 了 克 统 计量 和 相应 了 值 ， 所 以 可 以 直接 使 用 忆 值 作为 判 
断 标准 ， 其 调用 格式 为 shapiro.test(x)， 参 数 x 即 所 要 检验 的 数据 集 ， 它 是 长 度 在 3~5000 之 间 的 


向 量 。 


上 文 提 到 方差 分 析 广 泛 应 用 于 经 济 管理 领域 ， 接 下 来 我 们 举例 说 明 ， 某 银行 规定 VIP 客户 的 
月 均 账 户 余额 要 达到 100 万 元 ， 并 以 此 作为 比较 各 分 行业 绩 的 一 项 指标 。 这 里 分 行 即 因子 ， 账 户 
余额 是 所 要 检验 的 指标 ， 先 从 三 个 分 行 ( 对 应 三 个 水 平 4、4 刀 和 4) 中 ， 分 别 随机 抽取 7 个 VIP 
客户 的 账户 ， 数 据 列 在 表 8.1 中 。 为 了 用 单 因素 方差 分 析 判 断 三 个 分 行 此 项 业绩 指标 是 否 相 同 ， 
首先 对 三 个 分 行 的 账户 余额 分 别 进行 正 态 检验 。 
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表 8.1 各 分 行 样本 的 账户 余额 
账户 余额 (万 元 ) 


101 





> xl=c(103,101,98,110,105,100,106) 
> X2=C(L13，1077108711671147110，1LL5) 
> x3=c (82, 92,84,86,84,90,88) 

> shapiro.test (x1) 


Shapiro-Wilk normality test 
data: xl 
W = 0.9778, p-value = 0.948 
> shapiro.test (x2) 


Shapiro-Wilk normality test 
data: x2 
W = 0.9189, p-value = 0.4607 
> shapiro.test (x3) 


Shapiro-Wilk normality test 
data: x3 
W = 0.9547, p-value = 0.7724 


尸 值 均 大 于 显著 性 水 平 wx = 0.05， 因 此 不 能 拒绝 原 假设 ， 说 明 数 据 在 因子 4 的 三 个 水 平 下 都 
是 来 自 正 态 分 布 的 。 
(2) 方差 齐 性 检验 


方差 分 析 的 另 一 个 假设 一 一 方差 齐 性 ， 需 要 检验 不 同 水 平 下 的 数据 方差 是 否 相 等 。 很 多 统计 
学 家 提出 了 一 些 很 好 的 方法 ， 这 里 首先 介绍 R 中 最 常用 的 Bartlett 检验 。 原 假设 为 








有 HH,:o?=0?=…=0o?， 已 :ao' 不 全 相等 
Bartlett 检验 适用 于 多 样本 的 情形 ， 在 每 个 水 平 下 都 有 
Te 
之 
一 DS” 
i = ) 











1 下 
eh be i et | -2 
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在 原 假 设 成 立时 ， 可 以 得 到 卡 方 统计 量 





本 |o-oms -和 -Dms | ~xX(r-l) 


i=] 

它 近似 服从 自由 度 为 r-7 的 卡 方 分 布 ， 因 此 我 们 就 可 以 根据 统计 量 或 P 值 来 判断 是 否 接受 原 
假设 。 

R 中 的 Bartlett 检验 函数 是 bartlett.test()， 其 调用 格式 为 

bartlett.test (x, g, ...) 

其 中 ， 参 数 x 是 数据 向 量 或 列表 (list); g 是 因子 向 量 ， 如 果 x 是 列表 则 忽略 g。 当 使 用 数据 
集 时 ， 也 通过 formula 调用 函数 | 

bartlett.test (formula, data, subset, na.action, ...) 


formula 是 形 如 lhs ~ rhs 的 方差 分 析 公 式 ，data 指明 数据 集 ; subset 是 可 选项 ， 可 以 用 来 指定 
观测 值 的 一 个 子 集 用 于 分 析 ; na.action 表示 遇 到 缺失 值 时 应 当 采 取 的 行为 。 

继续 上 面 的 例子 ， 首 先 构造 完整 的 数据 集 account， 数 据 框 的 第 一 个 元 素 是 账户 余额 数值 ， 第 
二 个 元 素 是 因子 的 水 平 ， 构 造 时 使 用 函数 factor0， 因 子 水 平 为 1、2、3， 每 个 水 平 下 有 7 个 观测 
值 ， 因 此 设置 each=7。 再 做 Bartlett 检验 。 


> etl XZ 
> account=data.frame (x,A=factor (rep (1:3,each=7))) 
> bartlett.test (x~A, data=account) 


Bartlett test of homogeneity of variances 
data: x by A 
Bartlett's K-squared = 0.1362, df = 2, p-value = 0.9341 


由 于 尸 值 远 远大 于 显著 性 水 平 c = 0.05， 因 此 不 能 拒绝 原 假设 ,我 们 认为 不 同 水 平 下 的 数据 
是 等 方差 的 。 


8.1.2 单 因素 方差 分 析 


方差 分 析 的 目的 是 要 比较 因素 4 的 r 个 水 平 下 ， 试 验 结果 是 否 有 显著 差异 。 以 样本 均值 作为 
检验 的 标准 ， 写 出 检验 假设 


H, :wa = =…=Q， 及:Q,Q,,…,Q, 不 全 相等 
如 果 拒 绝 原 假设 ,说 明 样 本 来 自 不 同 的 正 态 总 体 ， 则 由 因素 4 的 各 个 水 平 所 造成 均值 的 差异 
有 统计 意义 ; 若 不 能 拒绝 原 假 设 ， 说 明 样本 来 自 相 同 的 正 态 总 体 ， 因 素 的 不 同 水 平 之 间 无 差异 。 
为 了 度量 这 种 差异 ， 我 们 将 描述 所 有 观测 数据 离散 程度 的 总 离 差 平 方 和 分 解 为 两 部 分 ， 研 究 
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差异 的 主要 来 源 ， 所 以 叫做 “方差 分 析 ”。 总 离 差 平 方 和 【也 称 为 总 变 差 ) 由 %S7y 表示 。 


r nm 本 ， 去 1 EX 
SSr = 2 (5 -x) ,x=—2 

i=1 j= Nn i=1 j=l 
总 离 差 平方 和 可 以 分 解 为 两 部 分 : 组 内 平方 和 SSs ， 它 针对 同一 个 正 态 总 体 的 样本 计算 内 部 
差异 情况 ， 体 现 随机 误差 的 影响 ， 另 一 部 分 为 组 间 平 方 和 SS ， 表 示 因 子 各 水 平 下 的 样本 均值 与 
总 平均 值 之 间 的 差 平 方 和 ， 反 映 r+ 个 总 体 均值 之 间 的 差异 ， 因 此 SS, 越 大 ， 说 明 因素 4 对 试验 结 

果 的 影响 越 大 。 
SS7 = SS 十 09， 


其 中 


部 及 一 1 n 
5 = > .Cx = 区 = 一 》 入 
1 


i=l j=l Nn, j= 


Ss, si —x), n=n+n,+:…+n, 
i=1 j=l 
在 原 假设 的 条 件 下 ， 经 过 统计 分 析 可 以 得 出 o? 的 无 偏 估计 SSs/(n 一 r) 和 SS,/(r 一 1)， 所 
以 以 下 式 子 成 立 


SS 
~X (nr), 
oO 








SS 
tl) 
oO 
并 且 SS4 与 SS 相互 独立 ， 于 是 可 以 构造 出 统计 量 
pss/(r-D) 


= SS /0 ~F(r—l,n—r) 


在 显著 性 水 平 & 下 ， 丰 (7r 一 1,n 一 r) 是 下 分 布 上 的 Q@ 分 位 点 。 车 下 > 下 (7r 一 1,n 一 r)， 则 


拒绝 原 假设 , 表明 所 检验 的 因素 对 观测 值 有 显著 影响 , 当然 也 可 以 通过 P 值 决定 是 否 拒绝 原 假 设 ， 
R 的 分 析 结 果 中 计算 了 P 值 ， 所 以 我 们 直接 用 它 来 判断 。 


为 了 使 方差 分 析 的 计算 过 程 更 加 清晰 ， 我 们 通常 将 上 述 过 程 列 在 一 张 表 内 ， 即 方差 分 析 表 ， 
如 表 8.2 所 示 。 


表 8.2 因素 方差 分 析 表 


F 
a | 





方 和 什 

SS MS 

SS MS, = 一 4 F = 一 
mm 4 太一 1 芭 淹 恒 


162 ”数据 分 析 : R 语言 实战 


续 表 


误差 nr SS p 
总 和 n-l SS7 


R 中 的 函数 aov0 用 于 方差 分 析 的 计算 ， 其 调用 格式 为 

aov (formula, data = NULL, projections = FALSE, qr = TRUE,contrasts = NULL, ...) 

其 中 的 参数 formula 表示 方差 分 析 的 公式 ， 在 单 因素 方 差分 析 中 即 为 x ~ A ; data 表示 做 方 
差分 析 的 数据 框 ，projections 为 逻辑 值 ， 表 示 是 否 返 回 预测 结果 ; qr 同样 是 逻辑 值 ， 表 示 是 否 返 
回 QR 分 解 结 果 ， 默 认为 TRUE; contrasts 是 公式 中 的 一 些 因子 的 对 比 列表 。 通 过 函数 summary() 
可 列 出 方差 分 析 表 的 详细 结果 。 

上 面 的 例子 已 经 对 数据 的 正 态 性 和 方差 齐 性 做 了 检验 ， 接 下 来 就 可 以 进行 方差 分 析 。 


> a.aov=aov (x~A, data=account) 





> summary (a.aov) 
Df Sum Sq Mean Sq F value Pr (>F) 


A 2 2315 1158 82.68 8.46e-10 *** 
Residuals 18 252 14 
sionifs codass: 0 ,xx 0z001 *w QOL WY Qa03 7" .0 " "1 


输出 的 分 析 结 果 即 对 应 一 个 方差 分 析 表 ，4 即 因子 ，Residuals 表示 残 差 。 各 列 分 别 为 ， Df 
表示 自由 度 ，Sum Sq 为 平方 和 ，Mean Sq 为 均 方 和 ，F value 表示 下 检验 统计 量 的 值 。 检 验 的 P 
值 远 远 小 于 c = 0.05 说 明 拒 绝 原 假设 ,不 同 分 行 的 经 济 业绩 有 显著 差别 。 使 用 plotO0 函 数 ， 我 们 
可 以 直观 地 描述 这 种 差异 。 


> plot (account $x~account$A) 


绘制 结果 如 图 8.1 所 示 。 


account$x 
85 90 95 100 105 110 115 





account$A 


图 8.1 不 同 分 行 的 经 营业 绩 


第 8 章 ， 方差 分 析 及 愉 实现 ”163 


R 中 方差 分 析 的 其 他 实现 方法 : 


Q 单 因素 方差 分 析 的 数学 模型 可 看 作 是 一 种 特殊 的 线性 模型 ， 因 此 方差 分 析 还 可 以 通过 线 
性 模型 函数 Im()( 下 一 章 详细 介绍 ) 计算 得 到 ， 再 用 函数 anova0 提 取 其 中 的 方差 分 析 表 ， 因 此 
aov(formula) 等 价 于 anova(lm(formula))。 


> anova (lm(x~A, data=account)) 
Analysis of Variance Table 


Response: x 

Df Sum Sq Mean Sq F value Pr (>F) 
A 2 2315.1 1157.6 82.684 8.464e-10 *** 
Residuals 18 252.0 14.0 


Signif,. Sodess OO Tt O00 *¥r OO ww! Od ToT OT YT 1 


@@ ” 单 因 素 方差 分 析 还 可 以 通过 函数 oneway.test0 〇 实现 。 


oneway.test (formula, data, subset, na.action, var.equal = FALSE) 


若 各 水 平 下 的 总 体 方差 相等 ， 且 参数 varequal 设置 为 TRUE,， 则 等 同 于 函数 aov0 所 作 的 方差 
分 析 结 果 。 在 默认 情况 下 ; 各 水 平 下 的 总 体 方差 不 相等 (var.equal=FALSE), 则 使 用 Welch (1951) 
的 近似 方法 ， 在 任意 多 个 样本 的 情况 下 作 两 样本 Welch 检验 。 在 满足 方差 齐 性 的 条 件 下 ， 用 
oneway.test() 做 检验 。 

> oneway.test (x~A, data=account, var .equal=TRUE) 

One-way analysis of means 


data: x and A 
F = 82.6837, num df = 2, denom df = 18, p-value = 8.464e-10 


Levene 检验 


我 们 知道 ， 在 用 数据 作 方 差分 析 之 前 ， 必 须 检验 它 是 否 满足 儿 个 基本 假设 。 常 见 的 Bartlett 
多 样本 方差 齐 性 检验 主要 用 于 正 态 分 布 的 数据 ， 对 于 非 正 态 分 布 的 数据 ， 检 验 效果 不 理想 。 因 此 
我 们 介绍 方差 齐 性 检验 的 另 一 个 方法 一 一 Levene 检验 ， 它 既 可 以 用 于 正 态 分 布 的 数据 ， 也 可 用 于 
非 正 态 分 布 的 数据 或 分 布 不 明 的 数据 ， 具 有 比较 稳健 的 特点 ， 检 验 效果 也 比较 理想 。 


Levene 检验 先 对 原始 数据 作 变换 ， 然 后 再 进行 方差 分 析 ， 变 换 主要 有 三 种 方式 : 





@ dj =|X, 一 XY， 五, 是 原始 数据 中 第 i 个 水 平 下 样本 的 简单 平均 。 
@ dy =|X 一 md,|，md 是 第 i 个 水 平 下 样本 的 中 位 数 。 
四 d) =|X, 下 | ， 作 离 均 差 平方 变换 。 
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其 中 第 一 种 变换 方式 主要 用 于 对 称 分 布 或 正 态 分 布 的 数据 ， 第 二 种 变换 可 用 于 偏 态 分 布 的 数 
据 。 对 变换 后 的 数据 作 方 差分 析 ， 根 据 P 值 判断 各 组 原始 数据 的 方差 齐 性 是 否 满足 。 

R 的 程序 包 car 中 提供 了 Levene 检验 的 函数 levene.test0， 程 序 包 无 需 安装 ， 但 使 用 前 要 先 加 
载 ， 调 用 格式 为 

levene.test (x, group) 


其 中 ，x 是 数据 向 量 ，group 是 因子 向 量 。 


> library (car) 

> levene.test (account$x,account$A) 

Levene’s Test for Homogeneity of Variance (center = median) 
Df F value Pr (>F) 

group 2 0.0426 0.9584 
18 


由 于 尸 值 大 于 cw =0.05 ， 不 能 拒绝 原 假 设 ， 我 们 认为 不 同 水 平 下 的 数据 是 等 方差 的 。 
8.1.3 多 重 1 检 验 


在 上 例 中 ， 单 因素 方差 分 析 是 从 总 体 的 角度 上 说 明 各 效应 的 均值 之 间 存 在 显著 差异 ， 但 具体 
哪些 水 平 下 的 均值 存在 较 大 差异 无 从 得 知 ， 所 以 我 们 要 对 每 一 对 样本 均值 进行 一 一 比较 ， 即 要 进 
行 均值 的 多 重 比 较 。 


最 常用 也 是 最 直接 的 方法 是 多 重 1 检验 方法 ， 其 对 因子 4 每 个 水 平 下 的 数据 两 两 比较 均值 进 
行 1 检验 ， 但 估计 方差 时 用 的 是 全 部 数据 的 误差 均 方 和 MS 。 检 验 的 假设 为 


Ho:H=H,, iz), a 
构造 1 检验 统计 量 


DD i 
MSs, By 
7 717 


在 原 假设 成 立 的 情况 下 ， 该 统计 量 服从 自由 度 为 n-r 的 t 分布， 所 以 检验 拒绝 域 为 
四 |> tn-7). 


, ij bj=1,2,..,r 


多 重 1 检验 的 思路 简单 ， 但 这 样 的 方法 并 不 能 直接 使 用 ， 这 是 因为 在 样本 之 间 多 次 重复 使 用 
t 检验 会 大 大 增加 犯 第 一 类 错误 的 概率 。 例 如 因子 4 有 三 个 水 平 ， 需 要 比较 3 次 (n=k(k-1)/2)， 
显著 性 水 平 为 0.05， 所 以 每 次 比较 犯 第 一 类 错误 的 概率 即 0.05， 那 么 3 次 比较 同时 进行 ， 犯 第 一 
类 错误 的 总 概率 为 1-(1-o)” =1-0.9$? = 0.1426 ， 所 以 简单 的 多 重 + 检验 结果 是 不 一 定 可 靠 的 。 
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这 样 由 多 重 上 检验 计算 的 尸 值 不 能 直接 用 于 作 判 断 , 统计 学 家 们 提供 了 很 多 方法 对 己 值 进行 修正 ， 
R 中 的 己 值 修正 函数 是 p.adjust()。 其 调用 格式 为 


p.adjust (p, method = p.adijust.methods, n = length (p)) 


在 R 中 输入 如 下 指令 可 以 看 到 调整 方法 的 列表 (如 表 8.3 所 示 )。 


> p.adjust .methods 
[1] "holm" "hochberg" "hommel" "bonferroni™" “BH" TRY EGG 
[8] "none" 


表 8.3 尸 值 调整 方法 


调整 方法 对 应 的 R 软件 参数 













th en 
| 


当 多 重 检 验 次 数 较 多 时 ，bonferroni 修正 方法 的 效果 比较 好 ， 思 路 也 很 简单 : 如 果 在 同一 个 
数据 集 上 同时 进行 n 个 独立 的 假设 检验 ， 那 么 用 于 每 一 假设 的 统计 显著 水 平 ， 应 为 仅 检 验 一 个 假 
设 时 显著 水 平 的 11n， 即 @'=Q/n，n 为 多 重 t 检 验 的 次 数 。 


在 R 中 计算 均值 的 多 重 上 检验 ， 用 函数 pairwise.ttestO 返 回 多 重 比较 的 修正 P 值 ， 其 调用 格 
式 为 


Pairwise.t.test (x, g, P.adjust.method=P.adqjust.methods，Pool.sd= !paired, paired = FALSE, 
alternative = c("two.sided", "less", "greater"),...) 


其 中 , 参数 x 是 响应 向 量 ; g 是 因子 向 量 ; p.adjust.methods 给 出 尸 值 的 修正 方法 , 默认 按 Holm 


方法 修正 ， 若 不 作 任何 调整 则 设 为 none; paired 为 逻辑 值 ， 指 示 是 否 要 配对 上 检验 ; alternative 指 
明 检 验 的 方向 问题 。 


对 银行 账户 的 例子 作 多 重 上 检验， 使 用 bonferroni 修正 方法 ， 可 以 返回 各 因子 水 平 下 两 两 检 
验 的 尸 值 矩阵 。 


> attach (account) 
> pairwise.t.test(x,A,p.adjust .method="bonferroni") 







Pairwise comparisons using 七 tests with pooled SD 
data: x and A 
入 2 
2 0:0013 一 
3 3.9e-07 6.5e-10 


P value adjustment method: bonferroni 
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经 过 修正 后 的 P 值 比 原来 会 增 大 很 多 ， 这 在 一 定 程度 上 克服 了 多 重 1 检验 增加 犯 第 一 类 错误 的 
概率 的 缺点 。 从 检验 结果 来 看 ， 样 本 两 两 之 间 1 检 验 的 P 值 都 很 小 ， 说 明 几 个 样本 之 间 差 异 明显 。 
8.1.4 ” Kruskal-Wallis 秩 和 检验 

方差 分 析 是 关注 三 个 或 更 多 总 体 的 均值 是 否 相 等 的 问题 ， 数 据 被 假设 成 具有 正 态 分 布 和 齐 方 
差 性 , 这 样 下 检验 才能 奏效 。 但 有 时 采集 的 数据 并 不 能 完全 满足 这 些 条 件 , 类 似 两 两 样本 的 比较 ， 
我 们 不 妨 尝试 将 数据 转换 成 秩 统计 量 ， 因 为 秩 统计 量 的 分 布 与 总 体 分 布 无 关 ， 可 以 摆脱 总 体 分 布 
的 束缚 。 在 比较 两 个 以 上 的 总 体 时 ， 可 广泛 使 用 非 参数 的 Kruskal-Wallis 秩 和 检验 ， 它 是 对 两 个 
以 上 的 秩 样本 进行 比较 。 


KrmuskaLWallis 秩 和 检验 ， 首先 要 求 从 总 体 中 抽取 的 样本 是 独立 的 ， 然 后 将 所 有 样本 的 值 混合 
在 一 起 看 成 是 单一 样本 ， 再 把 这 个 单一 的 混合 样本 中 值 从 小 到 大 排序 ， 序 列 值 替换 成 “ 秩 ”， 最 
小 的 值 给 予 秩 值 1， 有 结 点 时 平分 秩 值 。 将 数据 样本 转换 成 秩 样本 后 ， 再 对 这 个 秩 样本 进行 方差 
分 析 , 但 需要 注意 一 点 ; 此 时 我 们 构造 的 统计 量 KW 不 等 于 组 间 平 均 平方 和 除 以 组 内 平均 平方 和 ， 
而 是 组 间 平 方 和 除 以 全 体 样本 秩 方差 ， 这 样 可 以 消除 数据 量 纲 的 影响 。 这 个 KW 统计 量 是 我 们 判 
定 各 组 之 间 是 否 存在 差异 的 有 力 依据 。 
假设 有 组 样本 ，n, 是 第 i 组 样本 中 的 观察 数 ，n 是 所 有 样本 中 的 观察 值 个 数 ，R 是 第 ;组 
样本 中 的 秩 和 ，R, 是 第 1 组 样本 中 的 第 j 个 观察 值 的 秩 值 。 为 简化 计算 ， 假 设 观测 值 中 无 结 点 ， 
第 i 组 的 1 个 个 体 的 秩 满 足 
Ri<R;<:<R, (i=1,2,.,k) 
需要 检验 的 原 假设 为 
万 ,， 各 处 理 方法 的 效果 无 显著 差异 
在 原 假设 为 真 时 ， 各 组 之 间 不 存在 差异 ， 或 者 说 名 组 样本 属于 的 总 体 具有 相同 的 中 心 ， 即 各 
组 样本 的 秩 平均 应 该 与 全体 样 本 的 秩 平 均一 + 了 + 比较 接近 ， 从 而 得 到 刻画 这 种 接 


近 程 度 的 统计 量 一 一 组 间 平 方 和 


i=] 


2 
大 
SSR = Yn, [人 - 史 ] 
nn 


我 们 最 终 需 要 计算 出 KW 统计 量 ， 它 的 分 子 是 组 间 平 方 和 ， 分 母 应 为 全 体 样本 秩 方差 。 样 本 
方差 的 自由 度 为 n-17， 因 此 全 体 样本 的 秩 方差 为 
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km 2 
全 体 样本 秩 方差 = 25s, | 
i=1 j=1 


| (| 
nn 一] 所 2 


_ n(n+l1) 
]2 
根据 上 述 步 又， 最 终 可 以 得 到 Kruskal-Wallis 秩 和 统计 量 KW 


天 2 
py = 12 > (8 
1(7 十 ]) 所 2 
车 样本 中 存在 结 点 ， 需 要 对 上 式 进行 调整 ， 首 先 计算 一 个 矫正 系数 C 
(7 -Ty) 
se eel Wee 
n’—n 


其 中 ;为 第 j 个 结 点 的 个 数 ， 调 整 后 的 大 了 W, 统 计量 为 








C=1 


KW. = KW/C 
如 果 每 组 样本 中 的 观察 数目 至 少 有 5 个 ， 那 么 样本 统计 量 天 殉 非常 接近 自由 度 为 -1 的 卡 方 


分 布 。 因 此 ， 我 们 将 用 卡 方 分 布 来 决定 所 .统计 量 的 检验 。KW 值 越 大 ， 拒 绝 原 假 设 的 可 能 性 越 
高 。 在 R 中 主要 依靠 计算 的 P 值 来 判断 ， 当 PP 值 小 于 相应 的 显著 性 水 平时 ， 拒 绝 原 假设 。 


外 ， 


R 软件 的 内 置 函 数 kruskal.test() 可 以 完成 Kruskal-Wallis 秩 和 检验 ， 使 用 方法 如 下 : 


kruskal .test (x, ...) 
kruskal.test (x, g, ...) 
kruskal.test (formula, data, subset, na.action, ...) 


其 中 ,x 是 数据 的 向 量 或 列表 ; g 是 由 因子 构成 的 向 量 , 但 当 x 是 列表 形式 时 忽略 参数 g。 田 
也 可 以 使 用 公式 形式 来 设置 参数 ，formula 即 方差 分 析 的 公式 ; data 指定 样本 数据 框 ; 如果 只 


需要 data 的 一 部 分 子 集 参 与 计算 ， 则 用 subset 指定 ; na.action 设置 遇 到 缺失 值 时 应 采取 的 行为 。 


某 制 造 商 雇用 了 来 自 三 所 本 地 大 学 的 雇员 作为 管理 人 员 。 最 近 ， 公 司 的 人 事 部 门 已 经 收集 信 


息 并 考核 了 年 度 工作 成 绩 。 从 三 所 大 学 来 的 雇员 中 随机 地 抽取 了 三 个 独立 样本 ， 样 本 量 分 别 为 7、 
6、7， 数 据 如 表 8.4 所 示 。 制 造 商 想 知道 来 自 这 三 所 不 同 的 大 学 的 雇员 在 管理 岗位 上 的 表现 是 否 
有 所 不 同 ， 我 们 通过 Kruskal-Wallis 秩 和 检验 来 得 到 结论 。 
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表 8.4 三 所 大 学 的 雇员 的 工作 成 绩 





检验 的 原 假 设 为 
瓦 。: 来 自 三 所 大 学 的 雇员 表现 无 显著 差异 


首先 在 R 中 输入 数据 ， 再 调用 函数 kruskal.test() 作 检验 。 数 据 输入 时 用 到 了 函数 factor()， 将 
数值 型 变量 转换 为 因子 型 变量 。 


> data=data.frame (x=c (25, 70, 60, 85, 95, 90, 80, 60,20, 30,15, 40, 35, 50, 70, 60, 80, 90,70,75), 
g=factor (rep (1:3,c(7,6,7)))) 

> kruskal .test (x~g, data=data) 

># 另 一 种 写法 : kruskal .test (data$x, data$g) 


Kruskal-Wallis rank sum test 


data: x by 9 
Kruskal-Wallis chi-squared = 8.9839, df = 2, p-value = 0.0112 


检验 的 结果 为 P=0.0112<0.05, 因此 拒绝 原 假 设 , 说 明 来 自 这 三 个 不 同 的 大 学 的 雇员 在 管理 岗 
位 上 的 表现 有 比较 显著 的 差异 。 


8.2” 双 因素 方差 分 析 及 R 实现 


在 实际 应 用 中 ， 一 个 试验 的 指标 往往 受到 多 个 因素 的 影响 ， 除 了 这 些 因素 本 身 ， 因 素 不 同 水 
平 的 措 配 也 会 影响 试验 结果 。 


例如 饮料 的 销售 量 有 可 能 受 销售 地 区 的 影响 ， 人 们 在 购买 时 还 会 关心 饮料 颜色 。 在 方差 分 析 
中 ， 车 把 饮料 的 颜色 看 作 影 响 销 售 量 的 因素 4， 把 饮料 的 销售 地 区 看 作 影 响 因素 B。 同 时 对 因素 
4 和 因素 中 进行 分 析 ， 就 称 为 双 因素 方差 分 析 。 两 个 因素 的 不 同 水 平 交叉 搭配 也 有 可 能 对 指标 产 
生 影 响 ， 根 据 这 一 点 双 因素 的 方差 分 析 主 要 可 分 为 两 类 ， 我 们 先 来 讨论 无 交互 作用 的 情况 。 
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8.2.1 无 交互 作用 的 分 析 


设 因素 4 有 7 个 水 平 , B 有 ;个 水 平 ， 在 每 一 个 水 平 组 合 (44,B;) 下 进行 一 次 独立 试验 得 到 观 
测 值 为 疗 江 三 上 27 J 三 1,2,…,S ， 从 而 双 因素 方差 分 析 的 数据 结构 如 表 8.3 所 示 。 


表 8.5 双 因 素 方差 分 析 的 数据 结构 





假定 x ~ N(1,0°) 且 相 互 独立 ， 则 无 交互 作用 的 双 因 素 方 差分 析 可 以 表示 为 如 下 的 数学 
模型 
x =H+Q,+p, 十 总 7 i | 


6j ~N(0,0”) 且 相 互 独立 


Do 0 afd 


1 1 5 
其 中 ，/4 = 一 了， 2 ,1 为 全 部 数据 的 总 平均 ，Q 是 因素 4 的 第 :个 水 平 的 效应 ， 为 
因素 8 的 第 7 个 水 平 的 效应 。 
与 单 因素 方差 分 析 类 似 ， 在 给 定 的 显著 性 水 平 a 下 ， 分 别 对 因素 4 和 B 提出 如 下 假设 


Ho :0 =0,=…=Q,=0( 因 素 4 对 指标 无 显著 影响 ) 
HH :B=p,=…=p,=0( 因 素 B 对 指标 无 显著 影响 ) 


双 因 素 方差 分 析 与 单 因素 方差 分 析 的 基本 原理 相同 ， 也 是 基于 对 总 方差 的 分 解 
SS, = S$, +SS, + SS 


r 5 OY 二 1 r 5 
其 中 总 离 差 平 方 和 为 SS; = 》,》_ (x 一 x)”， x 。 SS 为 因素 4 的 效应 平方 和 , SS。 
i=l j=1 i=l jl 
为 因素 B 的 效应 平方 和 ，S5; 为 误差 平方 和 。 
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Sm 1 
B= Xi. 三 一 ,eR i=1 2 
i=l S 
Eis 
SS =79 (x —x), Xi 三 一 Xi, 六 三 而 这 jo 次 
/j=l ri 


Me 





El jl 

@ 在 原 假设 Hi 的 条 件 下 ， 经 过 统计 分 析 可 以 得 出 
SS SS 
4~x(r-), TE~x((r-D)(s -1)) 
(on [oo 


并 且 SS 与 S$Ss 相互 独立 ， 于 是 可 以 构造 出 下 统 计量 
SS /(r—1) 

4™ Ss/(r -Ds —)] 

@) 同样 地 ， 在 原 假设 五 ,, 的 条 件 下 ， 对 因素 B 也 可 以 得 出 同样 的 五 统 计量 


Ss, ， ,= SS,/(s—1) 
i (s—1) SS, /[(r —1)(s—))] 


~F(r-l,(r—1)(s—}1)) 


~F(s—l,(r—1)(s—1)) 


把 上 面 的 分 析 过 程 汇总 为 双 因 素 方 差分 析 表 ， 如 表 8.6 所 示 。 
表 8.6” 双 因素 方差 分 析 表 


Wi 
-DG-D 


(1)(s-1) 





rs-—l 
R 仍然 用 函数 aov0 作 双 因 素 方 差分 析 ， 只 需 将 formula 改 为 x ~ 4 十 B 的 形式 即 可 。 


例如 ， 某 种 饮料 有 五 种 不 同 的 包装 方式 ， 分 别 在 五 个 不 同 地 区 销售 。 现 从 每 个 地 区 随机 抽取 
一 个 规模 相同 的 超市 ， 得 到 该 饮料 不 同 包 装 的 销售 资料 如 表 8.7 所 示 。 
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表 8.7 某 商 品 在 不 同 地 区 、 不 同 包装 的 销售 数据 


包装 方式 (4 





首先 为 了 建立 数据 集 ， 引 入 生成 因子 水 平 的 函数 gl0)， 其 调用 格式 为 


gl(n, k, length = nxk labels = 1:n ordered = FALSE) 


n 是 因子 的 水 平 个 数 ; k 表示 每 一 水 平 上 的 重复 次 数 ; length=n*k 表示 总 观测 数 ， 可 通过 参数 
labels 对 因子 的 不 同 水 平添 加 标签 ; ordered 为 逻辑 值 ， 指 示 是 否 排 序 。 例 如 在 上 面 的 例子 中 ，4 
一 共有 5 个 水 平 ， 并 且 每 个 水 平 都 要 重复 出 现 5 次 ， 因 此 n 和 都 等 于 5。 


> WX=0(20,12720; 10;14,22,10,20,12; 6,24,144:18/187.10;16,4,8:6518; 26;22716; 20,10) 
> sales=data.frame (x, A=g1 (5, 5) ,B=g1 (5,1,25)) 
> sales$B 
[和 
Levels: 1 2345 


分 析 前 先 对 因素 4 和 B 作 方 差 齐 性 检验 ， 使 用 函数 bartlett.test()。 


> bartlett.test (x~A, data=sales) 


Bartlett test of homogeneity of variances 
data: x by A 
Bartlett’s K-squared = 0.6653, df = 4, p-value = 0.9555 
> bartlett.test (x~B, data=sales) 


Bartlett test of homogeneity of variances 
data: x by B 
Bartlett's K-squared = 1.2046, df = 4, p-value = 0.8773 


因素 4 和 8B 的 P 值 都 远大 于 0.05 的 显著 性 水 平 ， 不 能 拒绝 原 假设 ,说 明 因素 4、B 的 各 水 平 
是 满足 方差 齐 性 的 。 这 时 再 进行 双 因素 方差 分 析 ， 输 入 指令 


> Sales.aov=aov (x~A+B, data=sales) 
> summary (sales .aov) 

Df Sum Sq Mean Sq F value Pr (>F) 
A 4 199.4 49.84 26303 0032 
B 4 335.4 83.84 STA O019 < 
Residuals 16 346.2 21.64 


Signif, eodess: DO wwe O00 wr O01 Ww O08 Vr OL V+ 
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检验 的 结论 : 因素 B 的 P 值 =0.0219<0.05， 拒 绝 原 假设 ,说 明 销 售 地 区 对 饮料 的 销售 量 有 显 
著 影 响 ， 而 因素 4 的 P 值 =0.1032>0.05， 不 能 拒绝 原 假设 ， 因 此 没有 充分 的 理由 可 以 说 明 包 装 方 
式 对 销售 有 明显 影响 。 


8.2.2 ”有 交互 作用 的 分 析 


有 交互 作用 的 双 因素 方差 分 析 是 假定 因素 4 和 因素 B 的 结合 会 产生 出 一 种 新 的 效应 。 例 如 ， 
某 一 地 区 的 消费 者 对 某 种 颜色 有 着 与 其 他 地 区 消费 者 不 同 的 特殊 偏爱 ， 这 就 是 两 个 因素 结合 后 产 
生 的 新 效应 , 属于 有 交互 作用 的 背景 。 交 互 作用 的 效应 体现 在 因素 4 和 8B 之 间 的 搭配 对 试验 结果 
产生 影响 ， 所 以 两 因素 4、B 的 不 同 水 平 的 搭配 必须 作 重 复试 验 。 在 每 个 水 平 组 合 (44,B,) 下 重 
复试 验 + 次 ， 记 第 次 的 观测 值 为 Xj ， 从 而 双 因 素 方差 分 析 的 数据 结构 如 表 8.8 所 示 。 


表 8.8 双 因 素 方差 分 析 的 数据 结构 


XI X112 Xllt X121 X122 X12 Xlsl Xls2 Xlst 


X211 X212 X211 X221 X222 X221 X2s1 X252 X2sf 





Xrll Xr12 Xrlt Xr21 Xr22 Xr2r Xrsl Xrs2 Xrst 


假定 x ~ NO i=1,2,.….,7; j=1,2,.….,5S; k=1,2,.…,t 且 相 互 独立 ， 则 有 交互 作用 的 双 
因素 方差 分 析 可 以 表示 为 如 下 的 数学 模型 
2 三 居 十 Wi tp +o, + ey 二 27 j= 2 k= dt 
Ege ™ N(0,o”) 且 相 互 独立 


Lia Za = 0 Zt = Za 


其 中 ， /= 二 可 和 ”1 为 全 部 数据 的 总 平均 ,好 是 因素 4 的 第 ; 个 水 平 的 效应 ， 为 
rs | 六 
因素 的 第 /个 水 平 的 效应 ，6, 表示 和 4 和 有 B, 的 交互 效应 。 
在 给 定 的 显著 性 水 平 w 下 ， 检 验 的 假设 为 
Ho :0 =o =…=a=0( 因 素 4 对 指标 无 显著 影响 ) 


Hw :B=pB,=…=p,=0( 因 素 8 对 指标 无 显著 影响 ) 
Ho :01=6,=…=6,=0( 因 素 4 和 8B 无 交互 作用 ) 


方差 分 析 与 前 面 的 原理 相同 ， 对 总 方差 作 如 下 分 解 
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B= BO tO td st SS 
其 中 总 离 差 平方 和 为 


S39 = YY zr YY, 


i=1 j=] k=l rst 3 ja kal 


SS 为 因素 4 的 效应 平方 和 ，SS; 为 因素 B 的 效应 平方 和 ，5SS .gp 为 4 和 B 的 交互 效应 平 
方 和 ，SS5 为 误差 平方 和 。 


S91 =st YG 2, Hn = DD ig, 12,.., 
i=] 


(i 


SS =rtY Gs 7), x 冰球 再 ,St 
j=1 


a kt 


SS xg 3 fy Gy 一 入 — xX. +x)? 


i=] j=l 


9 = —xy), XY = Xijk 


EL FAel 
@“ 在 原 假设 总, 的 条 件 下 ， 经 过 统计 分 析 可 以 构造 出 正统 计量 
Ee SS ,/(r—1) 
“SS, /[rs(t—1)] 
@ ”同样 地 ， 在 原 假设 及 ,, 的 条 件 下 ， 对 因素 B 也 可 以 得 出 同样 的 统计 量 


过 SS,/(s—1) 
5 ss, /rs(t—)] 


~F(r—l,rs(t—1)) 


~F(s—l,rs(t—1)) 


@” 当 Ho 成 立时 ， 


炉 六 SS .a/[(r—1)(s—))] 


Ba rm DI) 


把 上 面 的 分 析 过 程 汇总 为 双 因素 方差 分 析 表 ， 如 表 8.9 所 示 。 
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表 8.9 有 交互 作用 的 双 因 素 方 差分 析 表 


SS jp 
(r—1)(s—1l) 
MS: = 于 Sa 

(r—1)(s—1) 


(1)(s-1) MS 1x8 = 


7s( 太 ]) 





sl1 





R 仍然 用 函数 aov0 作 双 因 素 方 差分 析 , 只 需 将 formula 改 为 X~ A+B+A:B 或 X~ A*B 的 
形式 即 可 。 


城市 道路 交通 管理 部 门 为 了 研究 不 同 路 段 、 不 同时 段 的 拥堵 情况 , 分别 在 三 个 路 段 和 高 峰 期 、 
非 高 峰 期 进行 试验 ， 每 一 个 水 平 组 合 下 测量 5 次 ， 共 获得 30 个 行车 时 间 的 数据 ， 如 表 8.10 所 示 。 


表 8.10 不 同 路 段 和 不 同时 段 的 行车 时 间 数 据 


EE EE 
高 峰 期 25 24 27 25 25 19 20 23 22 21 29 28 31 28 30 
非 高 峰 期 201722.2117 18 1713 1612 22.18 24.21 22 


首先 构造 数据 集 ， 对 因素 4 和 B 作 方 差 齐 性 检验 ， 利 用 函数 bartlett.test()。 

>Stime=c (29724727n286)2571920)23,22 72I729/28,31728730 207 EI/72272D, LERLSY IY; 13,16,1 
2n22, TB; 24721 22) 

> traffic=data.frame (time,A=gl (2,15,30),B=g1(3,5,30,1abels=c ("I", "II","III"))) 

> bartlett.test (time~A,data=traffic) 












Bartlett test of homogeneity of variances 
data: time by A 


Bartlett's K-squared = 0.0533, df = 1, p-value = 0.8174 
> bartlett.test (time~B,data=traffic) 
Bartlett test of homogeneity of variances 
data: time by B 
Bartlett's K-squared = 0.5776, df = 2, p-value = 0.7492 


检验 结果 的 了 了 值 均 远 大 于 显著 性 水 平 0.05, 说 明 两 个 因素 下 的 各 水 平 都 满足 方差 齐 性 的 要 求 ， 
可 以 进一步 做 方差 分 析 。 我 们 先 画图 来 观察 一 下 数据 的 特点 ， 首 先是 箱 线 图 。 


> op=par (mfrow=c (1,2)) # 分 割 图 形 区 域 
> plot (time~A+B, data=traffic) 
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Hit <Return> to see next plot: 


绘制 结果 如 图 8.2 所 示 。 


in 
CN 


time 
20 


15 





图 8.2 时段 和 路 段 的 单独 效应 


从 图 形 上 单独 观察 时 段 和 路 段 对 行车 时 间 的 影响 ， 可 以 发 现 因素 的 不 同 水 平 还 是 有 明显 差别 
的 。 为 了 考察 因素 间 的 交互 作用 是 否 存 在 ， 利 用 函数 interaction.plot0 绘 制 交互 效应 图 ， 这 是 一 个 
高 级 绘图 函数 。 

interaction.plot (x.factor, trace.factor, response, fun = mean, type = C(""，"P"，"p"，"o"，"c")， 

legend = TRUE, trace.label = deparse (substitutel(trace.factor)),...) 

其 中 , 参数 x.factor 表示 横 轴 的 因子 ; trace.factor 表示 分 类 绘图 的 因子 ; response 是 数值 向 量 ， 
要 输入 响应 变量 ，fun 表示 汇总 数据 的 方式 ， 默 认为 计算 每 个 因子 水 平 下 的 均值 ，type 指定 图 形 
类 型 ，legend 是 逻辑 值 ， 指 示 是 否 生 成 图 例 ; trace.label 给 出 图 例 中 的 标签 。 


> attach (traffic) 
> interaction.plot (A,B,time, legend=F) 
> interaction.plot (B,A,time, legend=F) 


绘制 结果 如 图 8.3 所 示 。 


mean of time 


16 20 24 28 


mean of time 





16 20 24 28 





图 8.3 ”时段 和 路 段 的 单独 效应 
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图 8.3 中 的 曲线 均 没 有 相交 ， 所 以 可 以 初步 判断 两 个 因素 之 间 应 该 没有 交互 作用 。 在 图 形 判 
断 的 基础 上 ， 我 们 用 方差 分 析 进 行 确认 。 
> traf.aov=aov (time~A*B,data=traffic) 


> summary (traf .aov) 
Df Sum Sq Mean Sq F value Pr (>F) 


A 1 313.63' 313,.63 84.766 2.4le=09 *#** 
B 2 261.60 130.80,.35.:351 7.02e~08 *** 
A:B 2 6.67 3x33 | 0Q.901 0.42 


Residuals 24 88.80 3.70 


Signif, codes: QO ex 0a00L we OOE wr QO or Ol "1 


根据 检验 结果 的 已 值 作 判 断 : 因素 4 时 段 和 B 路 段 对 行车 时 间 有 显著 影响 ;而 交互 作用 4:B 
的 尸 值 =0.42>0.05， 因 此 不 能 拒绝 原 假设 豆 o ， 说 明 两 个 因素 间 没 有 明显 的 交互 效应 。 


8.3 协 方差 分 析 及 R 实现 


为 了 提高 试验 的 精确 性 和 准确 性 ， 我 们 对 除 研究 因素 以 外 的 一 切 条 件 都 需要 采取 有 效 措施 严 
加 控制 , 使 它们 在 因素 的 不 同 水 平 间 尽量 保持 一 致 ， 这 叫做 试验 控制 。 但 当 我 们 进行 试验 设计 时 ， 
即使 做 出 很 大 努力 控制 ， 也 经 常会 碰 到 试验 个 体 的 初始 条 件 不 同 的 情况 ， 如 果 不 考 虑 这 些 因素 有 
可 能 导致 结果 失真 。 如 果 考 虑 这 些 不 可 控 的 因素 ， 这 种 方差 分 析 就 叫做 协 方差 分 析 ， 其 是 将 回归 
分 析 和 方差 分 析 结 合 在 一 起 的 方法 。 它 的 基本 原理 如 下 : 将 一 些 对 响应 变量 了 有 影响 的 变量 天 (未 
知 或 难以 控制 的 因素 ) 看 作协 变量 ， 建 立 响应 变量 了 随 碟 变化 的 线性 回归 分 析 ， 从 了 的 总 的 平方 
和 中 扣除 卫 对 了 的 回归 平方 和 ， 对 残 差 平方 和 作 进 一 步 分 解 后 再 进行 方差 分 析 。 


我 们 从 简单 的 情形 入 手 ， 讨 论 只 有 一 个 协 变量 和 一 个 因子 的 协 方差 分 析 。 设 试验 中 的 因 
子 为 4， 有 r 个 水 平 4, 刀 .4 ， 在 每 个 水 平 下 进行 试验 得 到 n, 对 观测 数据 
(565) 二 1,2,…,7; j=1,2,.…,n， 则 协 方差 的 数学 模型 为 

py =U+0 + Be, —xX)+e,,i=1,2,...,7, j=1,2,...,n, 
6y ~ N(0,a ) 且 相互 独立 


r 


ng, =0, BO0 


i=l i 


其 中 人 是 所 有 数据 的 总 均值 ，Q; 为 第 i 个 水 平 的 效应 ， 是 y 对 x 的 线性 回归 系数 ， 2y 是 
随机 误差 。 


在 给 定 的 显著 性 水 平 & 下 ， 考 虑 检验 的 原 假 设 
Hi :=Q,=*…=Q,=0,， i:Q,Q,,…,Q, 不 全 相等 
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根据 一 元 线性 回归 的 参数 估计 《〈 详 见 下 章 )， 可 以 得 出 参数 的 估计 值 


ee 二 
二 ])， 二 一 Xi 一 
4L=y, pb SO yi —y—pP(xi—x) 





其 中 ，SSs(Xx) 为 x 的 组 内 平方 和 和 ，SP 为 x 和 yy 的 组 内 乘积 和 ， 表 示 为 
SP = YD (x —xi)(y, —y,) 
i=] j=l 


协 方差 分 析 是 结合 了 线性 回归 的 方差 分 析 ，B(xi 一 x) 反映 了 线性 回归 对 数据 的 矫正 ， 矫 正 
后 的 组 内 平方 和 为 











SS, = SS,.(y)—pP:SP, =SS,(y)— SP 
E E\y E gE\Y SS (x) 
它 是 o? 的 一 个 无 偏 估 计量 ， 从 而 可 以 构造 服从 自由 度 n-r-1 的 卡 方 分 布 统计 量 ， 即 
2 “(nd) 
oO 
SP: » 让 
类 似 地 ， 矫 正 后 的 总 平方 和 为 SSr = S57(y) -tt Cy 从 而 得 到 组 间 平 方 和 
了 
Ws 





SS, = SS; 一 SS ， 通 过 它 构造 服从 自由 度 -1 的 卡 方 分 布 统计 量 一 忒 ~ YX?(r 一 1) 。 


加 
从 而 在 原 假设 下 ， 有 五 统计 量 
SS /(r—1) 


rn 


车 下 > 下,(r 一 1,n 一 r 一 1)， 则 拒绝 原 假 设 ， 认 为 各 因素 在 不 同 水 平 下 的 试验 结果 有 显著 差 
别 ; 反之 ， 则 不 能 拒绝 原 假设 ， 认 为 因素 对 试验 结果 无 显著 影响 。 在 统计 软件 中 进行 协 方差 分 析 
可 以 计算 出 卫 值 ， 通 过 PP 值 来 判断 是 否 拒绝 原 假设 会 更 加 容易 。 

R 中 计算 协 方差 分 析 的 函数 是 ancova()， 它 来 源 于 Heiberger 编写 的 统计 分 析 程 序 包 HH， 其 
调用 格式 为 

ancova (formula, data.in = NULL, ..., XxX, groups) 

通过 参数 formula 指定 模型 ，data.in 指定 输入 数据 框 ; x 为 协 方差 分 析 中 的 协 变量 ， 在 作 图 时 
如 果 formula 中 不 包括 x 则 需要 指明 ; groups 指明 绘图 时 分 组 的 条 件 因子 , 同样 是 当 formula 中 “|” 
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后 面 不 包括 变量 时 使 用 。 


下 面 看 一 个 例子 。 为 研究 三 种 肥料 对 苹果 树 产 量 的 影响 有 无 差异 , 每 种 肥料 各 施用 于 8 棵 树 ， 
测 得 每 棵 树 的 初始 产量 和 增 量 〈 如 表 8.11 所 示 )， 利 用 协 方差 分 析 三 种 肥料 的 效果 是 否 相 同 。 


表 8.11 施用 3 种 肥料 的 苹果 产量 


Te 和 | 
| 
en | 
EE EE 
li 
7 
RT 












85 83 65 76 80 91 84 90 


97 90 100 95 103 106 99 94 
89 91 83 95 100 102 .105 110 


首先 将 上 述 数 据 输 入 ， 生 成 一 个 数据 框 。 这 里 用 到 了 函数 gl0 生 成 因子 水 平 ， 其 调用 格式 为 


gl(n, k, length = n*k, labels = l:n, ordered = FALSE) 


其 中 n、k、length 都 是 整数 ， 分 别 指定 因子 数量 、 每 个 水 平 的 重复 次 数 和 生成 因子 向 量 的 长 度 。 


> Weight Initial=c(15,13,11,12,12,16,14,17,17,16,18,18,21,22,19,18,22,24,20,23,25,27,30,32) 
>Weight Increment=c(85,83,65,76,80,91,84,90,97,90,100,95,103,106,99,94,89,91,83,9 
5:100,1027105;110) 

> feed=g1 (3,8,24) # 生 成 因子 向 量 

> data feed=data.frame (Weight Initial,Weight Increment, feed) 

> library (HH) 

Loading required package: multcomp 

Loading required package: mvtnorm 

Loading required package: survival 

Loading required package: splines 

Loading required package: TH.data 

> m=ancova (Weight Increment~Weight Initialt+feed, data=data feed) 

>m 

Analysis of Variance Table 


Response: Weight Increment 
Df Sum Sq Mean Sq F value Pr (>F) 
Weight Initial 1 1621.12 1621.12:142.445 1.496e-10. *** 


feed 2 T0717.22 353.61 31.071 7.322e-07 直到 
Residuals 20. "227.6% -38 
Synifs codess OO 了 OOO "wat O01 rr O05 Ts O53 1 《二 


协 方差 分 析 的 书 值 非常 小 ， 说 明 结 果 非 常 显著 ， 应 该 拒绝 原 假设 ， 认 为 各 因素 在 不 同 水 
平 下 的 试验 结果 有 显著 差别 ， 即 三 种 肥料 对 苹果 产量 有 很 大 的 影响 。 
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在 R 中 ， 函 数 ancova0 不 但 可 以 计算 出 协 方差 分 析 结 果 ， 还 会 绘制 ANCOVA 图 ， 给 出 不 同 
因子 水 平 下 的 苹果 增 量 ， 如 图 8.4 所 示 。 从 图 中 也 可 以 看 出 ， 在 1、2、3 三 个 不 同 的 因子 水 平 下 ， 
苹果 产量 增 量 有 所 不 同 ，B 肥料 的 苹果 增 量 明显 高 于 4 肥料 ， 当 然 ， 苹 果 初 始 产 量 也 是 必须 考虑 
的 因素 之 一 ， 所 以 我 们 才 必 须 进行 协 方差 分 析 。 根 据 1、2、3 的 水 平 位 置 也 可 以 发 现 ， 施 加 肥料 
C 的 苹果 树 初始 产量 本 身 就 高 于 施肥 料 4 的 苹果 树 。 


Weight_Increment~Weight_Initial+feed 


Weight_Increment 
和 


站 





1520 25 30 1520 25 30 
Weight_Initial 


图 8.4” 协 方差 分 析 图 


a 


回归 分 析 及 R 实现 


Galton 被 誉 为 现代 回归 和 相关 技术 的 创始 人 ， 他 在 1875 年 进行 的 豌豆 实验 中 第 一 次 定义 了 
“回归 效应 ”。Galton 挑选 了 7 组 不 同 尺寸 的 更 豆 ， 在 英国 7 个 不 同 地 区 分 别 种 植 10 粒 种 子 ， 
怠 豆 生长 出 来 后 ， 将 原始 的 豌豆 种 子 〈 父 代 ) 和 新 生长 出 来 的 豌豆 〈 子 代 ) 进行 比较 ， 来 确定 吏 
豆 尺 寸 的 遗传 规律 。 最 终 ， 他 发 现 结 果 并 非 想 象 中 的 每 一 个 子 代 都 与 父 代 的 尺寸 保持 一 致 ， 恰 恰 
相反 ， 尺 寸 小 的 更 豆 会 得 到 较 大 的 子 代 ， 而 尺寸 大 的 更 豆 却 得 到 较 小 的 子 代 。 

Galton 当时 将 这 个 现象 定义 为 “ 返 祖 ”， 现 在 这 一 趋势 被 称 作 “ 回 归 效 应 ”。 若 我 们 把 父 代 
和 子 代 看 作 两 个 变量 ， 根 据 上 述 的 规律 ， 找 出 刻画 这 两 个 变量 之 间 因 果 关 系 的 函数 关系 ， 即 建立 
数学 模型 ， 就 可 以 根据 父 代 的 数值 预测 子 代 的 取 值 ， 这 就 是 经 典 的 回归 分 析 解 决 的 问题 。 

当然 ， 现 代 回 归 分 析 的 应 用 非常 广泛 ， 渗 透 至 各 个 领域 ， 例 如 可 以 描述 多 个 经 济 因 素 对 GDP 
的 影响 。 本 章 将 通过 理论 与 实例 的 结合 ， 讲 述 如 何在 R 软件 中 实现 回归 分 析 。 


9.1 一 元 线性 回归 


9.1.1 ”模型 理论 
在 回归 分 析 中 ,被 预测 或 被 解释 的 变量 称 为 因 变量 (或 响应 变量 ) y， 用 来 预测 或 解释 因 变 量 
的 一 个 或 多 个 变量 ， 称 为 自 变量 或 解释 变量 ) x。 一 元 线性 回归 只 涉及 一 个 自 变 量 ， 回 归 模 型 可 
表示 为 
y=Po+PBxte 
其 中 ，po + Bx 表示 y 随 x 变化 而 线性 变化 的 部 分 ，& 是 随机 误差 ， 包 含 其 他 一 切 不 确定 影 
响 的 总 和 ， 通 常 假定 & 是 一 个 服从 正 态 分 布 的 随机 变量 ， 即 @ ~ N(0,0”)。 
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当 回 归 模 型 表示 为 期 望 的 形式 时 ， 被 称 为 回归 方程 。 根 据 的 假定 可 知 其 期 望 值 为 0， 
因此 一 元 线性 回归 方程 为 
E(y)= bo EE Bx 
其 中 是 回归 直线 在 y 轴 上 的 截 距 (intercept) ; 是 直线 的 斜率 。 
在 做 回归 分 析 时 ， 参数 Bb, 、B. 是 未 知 的 ， 需要 利用 样本 数据 去 估计 它们 。 估 计 得 到 的 回归 方 
程 表 示 为 
p= bh 证 x 
估计 hb 5 Bb 的 一 个 直观 思想 是 使 得 求 出 的 回归 直线 与 各 样本 观测 点 之 间 的 偏离 越 小 越 
好 ， 根 据 这 一 思想 确定 参数 的 方法 即 最 小 二 乘法 。 令 
Q(p, pb) Ey 2 = -Bx,) 
那么 最 小 二 乘 估计 就 是 使 OULP, 思 ) 取 到 最 小 值 时 的 局 、 户 。 通 过 微分 方法 计算 得 到 
Wr 
A 
2 —X) 
9.1.2 显著 性 检验 


回归 分 析 的 主要 目的 是 根据 估计 的 模型 用 自 变量 来 估计 或 预测 因 变量 取 值 ， 但 我 们 建立 的 回 
归 方 程 是 否 真实 地 反映 了 变量 之 间 的 相关 关系 ， 还 需要 进一步 进行 显著 性 检验 。 对 于 一 元 线性 回 
归 模型 而 言 ， 回 归 方 程 的 显著 性 检验 有 三 种 等 价 的 方法 ， 分 别 为 1 检验 、F 检 验 和 相关 系数 检验 。 
在 R 中 给 出 的 方法 是 已 检验 ， 原 假设 为 ， 两 个 变量 之 间 的 线性 关系 不 显著 ， 即 瓦 :8 =0。 

以 回归 平方 和 《SSR) 和 残 差 平方 和 (SSE) 为 基础 ， 构 造 正统 计量 为 

EC 
SSE/(n—2) 

当 给 定 显著 性 水 平 为 & 时 ， 如 果 检验 结果 的 已 值 小 于 C ， 则 拒绝 原 假设 ， 说 明 模型 反映 的 
线性 关系 显著 ， 反 之 不 拒绝 原 假设 。 
9.1.3 ”RR 语言 实现 


在 R 语言 中 ， 使 用 Im 函数 可 以 非常 容易 地 求 出 回归 方程 ， 用 它 来 拟 合 线 性 模型 ， 可 以 进行 
回归 、 方 差分 析 和 协 方差 分 析 。 
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lm(formula, data, subset, weights, na.action, method = "gr", model = TRUE, x = FALSE, 
yY = FALSE, qr = TRUE, singular.ok = TRUE, contrasts = NULL, offset, ...) 


lm 函数 参数 说 明 见 表 9.1。 
表 9.1 Im() 的 参数 设置 


rr 
rr 


权重 向 量 ， 应 该 是 数字 向 量 或 NULL。 使 用 加 权 最 小 二 乘 方法 时 ，weights 是 数字 
向 量 ; 若 使 用 普通 最 小 二 乘 ， 则 为 NULL 


na.action 表示 数据 包含 缺失 值 NA 时 ， 应 该 如 何 处 理 。 默 认 设置 是 na.fail， 表 示 如 果 数 据 不 
包含 缺失 值 就 直接 返回 ， 否则 显示 出 错 。 其 他 设置 包括 NULL， 表 示 不 对 缺失 值 做 
处 理 ，na.omit 表示 忽略 包含 缺失 值 的 观察 数据 ; na.pass 表示 返回 的 对 象 不 变 。 

例如 ，na.action(na.omit(c(1, NA))) 






















method 








指出 拟 合 的 方法 。 目 前 仅 支持 method =“gr”(QR 分 解 )，method = “model.frame” 
返回 模型 框架 (与 下 面 的 method=TRUE 作用 相同 ) 


均 为 逻辑 值 ， 如 果 为 TRUE 返回 合适 的 模型 框架 、 模 型 矩阵 、 响 应 和 QR 分 解 
除了 第 一 个 参数 formula 是 必 选 条 目 外 ， 其 他 参数 都 是 可 选 的 。 


接 下 来 ， 我 们 通过 对 数据 集 的 回归 分 析 来 说 明 一 元 线性 回归 在 R 语言 中 的 实现 。 表 9.2 中 的 
数据 集 来 源 于 在 埃及 的 一 个 村 庄 卡 拉 马 的 真实 调查 结果 ， 调 查 者 测量 了 161 个 儿童 的 身高 ， 每 月 
将 这 些 儿 童 的 平均 身高 记录 下 来 ， 形 成 了 这 些 数 据 。 





表 9.2 一 元 线性 回归 原始 数据 集 
平均 身高 与 年 龄 


平均 身高 ( 厘米 ) 
二 





首先 ， 为 了 直观 地 显示 年 龄 与 身高 之 间 的 关系 ， 画 出 一 张 散 点 图 ， 以 年 龄 age 为 横 坐 标 ， 身 
高 height 为 纵 坐 标 ， 每 行 的 一 对 数据 对 应 图 中 的 一 个 点 。R 的 指令 如 下 : 


> age=18:29 
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> height=c(76.1,77,78.1,78.2,78.8,79.7,79.9,81.1,81.2,81.87 82.8,83:5) 
> plot (age, height) 


绘制 结果 如 图 9.1 所 示 。 


height 





18 20 22 24 26 28 


9.1 身高 与 年 龄 散 点 图 


从 图 中 可 以 观察 到 ， 年 龄 与 身高 基本 在 一 条 直线 附近 ， 可 以 认为 两 者 具有 线性 关系 ， 接 下 来 
建立 回归 模型 〈 程 序 接 前 文 ， 下 同 ); 


> lm.reg=lm(formula=height~age) # 可 简化 为 lm (height~age) 
> summary (lm.reg) # 提 取 模 型 计算 结果 


Call: 
lm(formula = height ~ age) 


Residuals: 
Min 10 Median 3Q Max 
-0.27238 -0.24248 -0.02762 0.16014 0.47238 


Coefficients: 

Estimate Std. Error t value Pr(>|t|) 
(Intercept) 64.9283 0.5084 127.71 < 2e-16 *** 
age 0.6350 0.0214 29.66 4.43e-11 *** 


Sighnif, eGdess 0O wm O001 xr O.0L Wr 0.05 ,TOL YI 


Residual standard error: 0.256 on 10 degrees of freedom 
Multiple R-squared: 0.9888, Adjusted R-squared: 0.9876 
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F-statistic: 880 on 1 and 10 DF, p-value: 4.428e-11 

指令 summary 提供 了 很 多 有 用 的 模型 结果 ， 包括 残 差 (Residuals)、 回 归 系 数 〈Coefficients)、 
拟 合 优 度 及 以 及 正统 计量 和 PP 值 。 回 归 系 数 中 Intercept 表示 截 距 该 =64.9283 ，age 对 应 的 估计 
值 为 自 变量 前 的 回归 系数 房 =0.6350 , 因此 由 输出 的 结果 可 以 得 到 回归 方程 》= 64.9283+ 0.635x 。 

我 们 建立 的 回归 方程 仅仅 根据 最 小 二 乘 方法 ， 估 计 出 一 个 年 龄 与 身高 之 间 的 数学 关系 式 ， 这 
一 式 子 是 否 真实 地 反映 了 变量 之 间 的 相关 关系 ， 还 需要 通过 显著 性 检验 结果 来 说 明 。 从 summary 
函数 输出 的 结果 可 以 看 出 ， 回 归 系 数 BP,B 的 P 值 非常 小 ,分别 为 P<2e-16 和 P=4.43e-11， 说 明 
系数 是 非常 显著 的 (显著 程度 由 后 面 的 “***’ 表示 )。 而 回归 方程 的 下 检验 , 得 到 PP 值 为 4.428e-11， 
也 是 非常 显著 的 。 上 述 两 种 检验 ， 都 说 明 以 年 龄 为 自 变 量 构 建 的 回归 模型 适用 于 估计 身高 这 一 因 
变量 。 

为 了 直观 地 看 出 估计 效果 ， 我 们 通过 指令 abline 在 plot 的 图 像 中 加 入 拟 合 的 线性 回归 线 : 


> abline (lsfit (age,height)) # 可 简化 为 abline (lm.reg) 


绘制 结果 如 图 9.2 所 示 。 


height 











图 9.2 身高 与 年 龄 拟 合 直线 


接 下 来 ， 对 残 差 进行 分 析 ， 这 里 介绍 两 种 方法 。 首 先 ， 比 较 简 单 的 一 种 是 自己 画 出 残 差 图 ， 
在 R 中 可 用 函数 residuals() 计 算 残 差 : 


> lm.res=residuals (lm.reg) 
> plot (lm.res) 
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得 到 的 残 差 图 如 图 9.3 所 示 。 


0.2 


Im. res 


-02 00 





Index 


9.3 一 元 线性 模型 残 差 图 
如 果 残 差 图 中 点 比较 均匀 地 分 布 在 y=0 两 侧 ， 则 说 明 残 差 不 包 含 趋势 ， 只 体现 随机 影响 。 在 
图 9.3 中 ， 第 3 个 点 的 残 差 较 大 ， 有 些 异 常 ， 在 图 9.2 中 也 可 以 看 出 第 3 个 点 偏离 直线 最 远 。 
第 二 种 方法 是 在 回归 模型 的 结果 上 使 用 plot 命令 ， 进 行 误 差 的 诊断 检验 ， 由 于 plot(Im.reg) 命 
令 会 输出 4 组 图 像 ， 首 先 需 要 将 图 像 窗口 分 成 4 部 分 ， 在 及 中 指令 为 : 
> par (mfrow=c (2,2)) # 将 图 像 窗 口 分 成 4 份 (两 行 及 两 列 ) 


> plot (lm.reg) 


这 4 组 图 像 (如 图 9.4 所 示 ) 给 出 了 诊断 信息 ， 分 别 表 示 : 


Residuals vs Fitted Normal Q-Q 


Residuals 
Standardized residuals 


-02 00 02 0.4 





77 78 79 80 81 82 83 -1.5 -0.5 0.0 0.5 1.0 1.5 


Fitted \alues Theoretical Quantiles 





Residuals vs Leverage 
二 N Oe i 
本 
号 号 ”|os 
g 小 村 
要 号 
: : 
加 已 
0.5 
77 78 79 80 81 82 83 0.00 0.05 0.10 0.15 0.20 0.25 0.30 
Fitted values Leverage 


9.4 ” 残 差 诊 断 图 
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e。。” 残 差 图 (Residuals vs Fitted)。 横 坐标 为 拟 合 值 了 》, 纵 坐 标 为 残 差 。 从 散 点 图 中 可 以 看 出 ， 
数据 点 基本 均匀 地 分 布 在 横 轴 y=0 两 侧 时 ， 第 3 个 点 残 差 很 大 。 

。 正 态 分 位 图 (Normal Q-Q)。Q-Q 图 中 点 的 分 布 集中 在 y=x 这 条 直线 上 时 ， 说 明 残 差 是 
服从 正 态 分 布 的 。 

。 ”位 置 -尺度 图 (Scale-Location)。 纵 坐标 为 标准 化 残 差 的 平方 根 , 残 差 越 大 ， 点 的 位 置 越 高 。 

。 ” 曲 式 距 离 图 (或 称 为 残 差 杜 杆 图 , Residuals vs Leverage)。 图 中 的 曲 式 距 离 (Cook's distance 
plot) 表示 每 一 个 数据 点 对 回归 线 的 影响 力 ， 第 3 个 点 的 值 较 大 ， 表 示 当 删除 该 数据 点 
时 ， 回 归 系 数 会 有 实质 上 改变 ， 为 异常 值 点 。 


根据 残 差分 析 的 结果 ， 我 们 尝试 将 第 3 个 点 从 原始 数据 中 剔除 ， 重 新 拟 合 回归 方程 : 
> age=age[-3] ;height=height[-3] 

> lm.reg2=lm(formula=height~age) 

> summary (lm.reg2) 


Call: 
lm(formula = height ~ age) 


Residuals: 
Min 10 Median 3Q Max 
-0.27370 -0.17931 0.01957 0.12293 0.32405 


Coefficients: 

Estimate Std. Error t Value Pr(>|t|) 
(Intercept) 64.5540 0.4381 147.36 < 2e-16€ *** 
age 0.6489 0.0182 35.64 5533e= 工 1 *** 


SHE 8 0 5 


Residual standard error: 0.2073 on 9 degrees of freedom 
Multiple R-squared: 0.993， Adjusted R-squared: 0.9922 
F-statistic: 1270 on 1 and 9 DF, p-value: 5.327e-11 


剔除 异常 值 点 后 的 回归 方程 ， 无 论 回归 系数 检验 还 是 FF 检验 都 更 加 显著 〈P 值 变 小 了 )， 说 
明 第 3 个 样本 可 以 去 掉 ， 最 终 得 到 的 回归 方程 是 = 64.554+0.6489x 。 


最 后 , 根据 估计 方程 , 我 们 可 以 在 给 定年 龄 的 情况 下 ， 预 测 对 应 的 身高 估计 值 及 其 取 值 区 间 ， 
取 值 区 间 是 在 给 定 置信 水 平 1-w 下 的 预测 区 间 [ 加 一 Gzip 为 +Gz-uo]。 在 R 中， 用 于 预测 
的 指令 是 predict 函数 : 

> age.pre<-data.frame (age=30) #predict 函数 中 使 用 的 数据 是 data.frame 或 1ist 格式 

> h.pre<-predict (lm.reg2,age.pre,interval="prediction",level=0.95) 


> h.pre 
王 半 七 lwr upr 
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1 84.02034 83.46839 84.57228 


在 置信 水 平 0.95〈 即 默认 值 ) 下 ， 当 年 龄 为 30 时 ， 身 高 的 预测 值 为 84.02034， 预 测 区 间 为 
[83.46839, 84.57228]。 


9.2 多 元 线性 回归 


我 们 多 次 强调 ， 实 际 问题 中 经 常 遇 到 分 析 两 个 或 多 个 变量 间 关 系 的 情况 。 当 一 元 回归 方程 中 
的 自 变 量 增加 时 ， 就 成 为 了 多 元 线性 回归 分 析 。 
9.2.1 模型 理论 
实际 问题 中 的 因 变量 了 通常 与 多 个 自 变 量 半 ,六 ,,…., 羡 ,(p >1 有 关 ， 它 们 之 间 的 线性 关系 描 
述 为 
Y=pB +PBX +PX,+…+PB,X,+e 
其 中 ， 思 ,有 ,DO 是 模型 的 参数 ; 2 为 误差 项 ， 反 映 了 随机 因素 对 了 的 影响 ， 是 不 能 由 
DP RD, 7 之 间 的 线性 关系 解释 的 变异 性 ， E~ No)。 设 (0602 有)， i=1,2,.…,n 
是 变量 的 n 次 独立 观测 值 ， 从 而 我 们 将 多 元 线性 回归 模型 展开 
P=PB+hBxat+pBr ++pB,r,+a 


y= p+ px t+ px FD 十 2E2 


wen 


Jin = 万 + FB + 


展开 的 模型 过 于 烦琐 ， 通 常 我 们 将 之 简化 为 矩阵 形式 ， 令 


yi hb 1 x Xp Xip a 

| 记 1 Wl Ny Ny 6 
2 二 pp 下 4. ;让 i " 人 . 全 一 
7 忆 1 Xl Xn2 Ea Xp 6 


从 而 多 元 线性 模型 写 为 了 = 革 B+& 。 为 计算 回归 系数 的 估计 值 户 ， 首 先 写 出 经 验 回 归 方 程 
?=B+BX+hX,+.…+pP,X, 


类 似 于 一 元 线性 回归 ， 使 用 最 小 二 乘法 计算 参数 太 的 估计 值 ， 但 在 多 元 情况 下 这 一 过 程 通过 
矩阵 运算 完成 。 观 测 值 与 回归 方程 拟 合 值 之 间 的 残 差 平方 和 为 
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Q(B)=(y-XpB) (y- XP) 
计算 上 式 的 最 小 值 ， 可 以 得 到 求解 房 , 房 …, 启 ,的 标准 方程 组 为 











9 6 
0A 有 o= 忆 
00 =0 (i=1,2,.…,p) 
oh B= 
从 而 得 到 当天 为 列 满 秩 时 ，/ 的 最 小 二 乘 估 计 为 户 =(X7X)1XTy，, 残 差 向 量 为 8=y-X 记 ， 
or 的 最 小 二 乘 估计 为 62 = 一 一。 
让 一 方 一 | 


9.2.2 显著 性 检验 


一 元 线性 回归 方程 的 了 检验 与 回归 系数 的 + 检验 是 等 价 的 ， 因 为 方程 中 只 有 一 个 自 变量 ， 如 
果 书 检验 表明 因 变 量 和 自 变 量 有 着 显著 的 线性 关系 ， 那 么 回归 系数 必然 不 为 0。 但 在 多 元 线性 回 
归 中 ， 这 两 种 检验 并 不 一 致 。 在 p 个 自 变量 中 ， 只 要 有 一 个 自 变量 与 因 变 量 的 线性 关系 显著 ,下 
检验 就 会 通过 ， 但 这 并 不 能 说 明 每 个 自 变量 在 线性 模型 中 影响 都 显著 ， 所 以 回归 系数 1 检验 是 必 
要 的 ， 用 于 判断 每 个 自 变 量 对 因 变 量 的 影响 是 否 都 显著 。 


《1) 回归 方程 线性 关系 的 检验 
回归 方程 的 检验 是 总 体 的 显著 性 检验 ， 提 出 假设 为 


Ho:pB=P=:…=p,=0, 已 :DO 至 少 有 一 个 不 为 0 
计算 五 检验 的 统计 量 
SSr/p 
-一 Fp,n-p-) 
SSe/(n—p—1) 


其 中 ，SS。 = (3, 一 ) 为 回归 平方 和 ，SSs = 了 (y, - 久 ) 为 残 差 平方 和 。 最 后 作出 统计 决 
策 ， 在 给 定 的 显著 性 水 平 w =0.05 下, 严 检 验 的 拒绝 域 为 已 > 已 (PnP-D 。 同 样 ， 在 RR 中 我 们 
直接 利用 尸 值 作出 决策 。 

(2) 回归 系数 的 检验 

回归 方程 通过 整体 显著 性 检验 后 ， 我 们 对 各 回归 系数 单独 进行 检验 ， 首 先 提出 假设 

H,:pB=0, H:p#0 (=1,2,,p) 
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计算 检验 的 统计 量 
=n 
$8 
其 中 ，53 是 回归 系数 记 , 的 标准 差 估 计 值 ， 即 
5, 号 VSSe/n—p—l 


i 
了 


根据 ;检验 作出 统计 决策 ;在 给 定 的 显著 性 水 平 w 下 ,车 四 > tjs , 则 拒绝 原 假设 ;车 上 < tj， 
则 没有 充分 的 理由 拒绝 原 假设 。 


9.2.3 民 语 言 实现 


多 元 线性 回归 分 析 同 样 由 函数 Im0 完 成 ， 但 参数 formula 的 表达 式 应 表示 为 多 元 形式 ，R 语 
言 中 多 元 关系 的 表达 公式 总 结 见 表 9.3。 


表 9.3 R 中 多 元 关系 的 表达 形式 
x、z 为 自 变量 ， 探 讨 x、z 的 主 效应 


同 xtztm+x:ztx:m+z:m， 包 括 主 效应 和 因子 间 的 交互 效应 


(^ 表示 包含 所 有 nm 阶 以 下 的 交互 作用 ) 


下 面 我 们 用 一 个 计量 经 济 中 的 实际 模型 来 说 明 多 元 线性 回归 在 R 中 的 实现 。 财 政 收入 是 一 个 
国家 经 济 系统 最 重要 的 部 分 ， 通 过 分 析 财政 一 般 收 入 中 的 各 分 项 ， 能 够 及 时 地 发 现 现行 税制 和 政 
策 是 否 适 应 经 济 发 展 情况 、 产 业 结 构 是 否 合理 等 问题 ， 因 此 建立 一 个 合理 的 财政 收入 模型 十 分 重 
要 。 财 政 收入 会 受到 各 种 不 同 因素 的 影响 ， 为 深入 研究 ， 我 们 建立 计量 经 济 学 模型 ， 以 财政 收入 
X( 亿 元 ) 为 因 变 量 , 自 变量 选取 如 下 : 第 一 产业 国内 生产 总 值 zi( 亿 元 )、 第 二 产业 国内 生产 总 值 z2( 亿 
元 )、 第 三 产业 国内 生产 总 值 x( 亿 元 )、 人 口 数 (万 人 )、 社 会 消费 品 零 售 总 额 xs( 亿 元 )、 受 灾 
面积 x6。( 万 公 顺 )。 数 据 集 如 表 9.4 所 示 。 
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表 9.4 1990 一 2009 年 财政 收入 及 相关 统计 数据 


| 










总 

| 1990 ”| 2937.10 5062.00 7717.40 5888.42 114333 “| 8300.10 38474.00 

| 1991 | 3149.48 5342.20 | 9102.20 7337.10 115823 ”| 9415.60 55472.00 
1992 | 3483.37 5866.60 11699.50 | 935738 117171 | 10993.70 | 51332.00 


1993 4348.95 6963.76 16454.43 11915.73 118517 14270.40 48827.00 


I 
1994 |521810 |9572.69 |22445.40 |16179.76 |119850 | 18622.90 | 55046.00 
1995 | 6242.20 12135.81 |28679.46 |19978.46 |121121 |23613.80 | 45825.00 
| 1996 | 7407.99 14015.39 |33834.96 |23326.24 |122389 | 28360.20 | 46991.00 







BC 











设 多 元 线性 回归 模型 为 
Y= 六 +BX, +pBX, 十 3 + 和 +pX; + 
在 R 中 输入 指令 


> revenue=read.table("d:/data/revenue.txt",header=T) # 读 取 数 据 
> lm.reg=lm(y~xl1+x2+x3+x4+Xx5+x6, data=revenue) 
> summary (lm.reg) # 汇 总 回归 分 析 结 果 


Call: 


lm(formula = y ~ xl + x2 + Xx3 + x4 + x5 + x6, data = revenue) 
Residuals: 

Min 10 Median 30 Max 
"295sTl -113.532 2639 90.16 370:01 


Coefficients: 
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Estimate Std. Error 七 value Pr(>|t|) 


(Intercept) 6.046e+04 3.211et+03 18.829 电工 2 人 天 

X1 -二 二 71e=01 8.638e-02 1. 356 0.19828 

X2 3.427e-02 3.322e-02 laQ32 0..32107 

X3 6.182e-01 4.103e-02 15:..067 Ll.3ie-09 *** 

X4 -5.152e-01 2.930e-02 5585 下 全 9 业已 = 了 日 二 二 本 

x5 -1.104e-01 2.878e-02 234837 0.00206 ** 

x6 -1.864e-02 1.023e-02 "1.823 0.09143 
Signif ncodess: 0 2 QQ MrFr OQ Rs O05 Pm 1 * 1 


Residual standard error: 234.8 on 13 degrees of freedom 
Multiple R-squared: 0.9999, Adjusted R-squared: 0.9999 
F-statistic: 2.294e+04 on 6 and 13 DF, p-value: < 2.2e-16 


计算 结果 显示 ， 回 归 模 型 的 拟 合 优 度 R=0.9999， 说 明 模 型 的 拟 合 效 果 较 好 ， 但 在 多 元 情况 
下 的 自 变量 个 数 越 多 ， 拟 合 优 度 会 越 高 ， 还 要 看 检验 的 结果 ; 回归 方程 的 检验 十 分 显著 〈(P 值 
很 小 )， 回 归 系 数 x1、x; 不 显著 ，xe 仅 在 0.1 的 显著 性 水 平 下 显著 。 可 以 写 出 回归 方程 为 


Y=60460—0.1171X, +0.03427X, +0.6182X, —0.5152X, 一 0.1104X 一 0.01864X 


与 一 元 线性 模型 相同 , 使 用 函数 predictO 可 以 对 以 后 年 份 的 人 口 增长 率 作 点 预测 和 区 间 预 测 。 
另外 ， 还 可 以 通过 一 些 函 数 获得 更 多 线性 拟 合 模型 的 信息 。 表 9.5 中 列 出 了 一 些 这 样 的 函数 。 


表 9.5 提取 线性 拟 合 模型 信息 的 函数 
到 夏 关 疝 量 
提取 折合 什 内 
言 
寺 数 他 
































训 取 醒 弄 让 AIC 信息 
训 取 本 型 BIC 信息 准则 
训 取 术 弄 的 对 归公 甸 于 


其 他 的 一 些 模 型 提取 函数 ， 将 在 下 一 节 回 归 诊 断 中 详细 介绍 。 


在 上 面 的 拟 合 结果 中 ， 我 们 发 现 自 变 量 x,/、xs 并 不 显著 ， 说 明 第 一 、 二 产业 国内 生产 总 值 对 
财政 收入 的 解释 意义 并 不 显著 ， 应 当 从 模型 中 剔除 ， 最 简单 的 方式 是 重 写 拟 合 模 型 


lm.reg=lm(y~x3+x4+x5+x6,data=revenue)。 
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R 中 的 函数 update0 是 专门 用 于 修正 模型 的 函数 ， 在 原 模型 的 基础 上 ， 不 仅 可 以 添加 或 删除 
某 些 项 得 到 新 的 模型 ， 还 可 以 对 变量 进行 运算 ， 如 对 因 变 量 取 对 数 、 开 方 等 。 其 调用 格式 为 


update (object, formula., ..., evaluate = TRUE) 


object 表示 已 经 拟 合 好 的 模型 对 象 ， 例 如 存储 Im()、glm0 的 拟 合 结果 ; formula 指定 模型 的 表 
达 式 ， 原 模型 中 不 变 的 部 分 用 点 “.” 表 示 ， 只 写 出 需要 修正 的 地 方 即 可 ， 例 如 


。 lmregl=update(lm.reg,.~.+x4) 表示 添加 一 个 新 的 变量 。 
。 lm.reg2=update(lm.reg,sqrt(.)~.) 表示 对 因 变 量 了 作 开 方 运算 后 再 拟 合 回归 模型 。 


将 上 例 中 的 到 剔除 后 重新 拟 合 多 元 线性 回归 方程 


> lm.regl=update (lm.reg, .~.-xl1-x2) 
> summary (lm.regl) 


Calls 
lm(formula = y ~ x3 + x4 + x5 + x6, data = revenue) 


Residuals: 
Min 10 Median 3Q Max 
-325.62 -147.54 14.07 108.28 427.42 


Coefficients: 
Estimate Std, Error 七 value Pr (>|t|) 
(Intercept) 6.339e+04 2.346e+03 27.020 3.89e-14 *** 


X3 6.584e-01 1.548e-02 M2 52341 °K 2e6-16 *** 

x4 -5.438e=01 1.98le-02 -27.445 3.09e-14 *** 

X5 “1.392e=01 一 上 .918e=02 0 

x6 -1:803e=02 _ 9.788e=03 = 了 SS421 已 0854 。 

Signif. Godess: 0 xr 0.001 xx OmQL Oo rr 9 "1 


Residual standard error: 233.6 on 15 degrees of freedom 
Multiple R-squared: 0.9999, Adjusted R-squared: 0.9999 
F-statistic: 3.476e+04 on 4 and 15 DF, p-value: < 2.2e-16 


去 除 zi、 总 后 的 方程 仍然 十 分 显著 ， 剩 余 的 自 变量 系数 均 比 较 显著 ， 这 时 拟 合 的 回归 方程 为 
Y =63390+0.6584X, —0.5438X, 一 0.1392X —0.01803X 


9.2.4 逐步 回归 


在 实际 分 析 中 ， 我 们 使 用 多 元 线性 模型 描述 变量 之 间 的 关系 时 ， 无 法 事先 了 解 哪些 变量 之 间 
的 关系 显著 ， 就 会 考虑 很 多 的 潜在 自 变 量 。 若 用 上 一 节 的 方法 一 一 剔除 变量 ， 建 模 过 程 将 变 得 非 
常 烦 珊 ， 所 以 一 般 采 用 逐步 回归 法 。 逐 步 回 归 建 模 时 ， 按 偏 相关 系数 的 大 小 次 序 〈 即 变量 对 y 影 
响 程 度 ) 将 自 变量 逐个 引入 方程 ， 对 引入 的 每 个 自 变 量 的 偏 相关 系数 进行 统计 检验 ， 效 应 显著 的 
自 变量 留 在 回归 方程 内 ， 如 此 循 此 继续 遂 选 下 一 个 自 变 量 。 
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从 方法 上 讲 ， 逐 步 回归 并 没有 引入 新 的 理论 ， 但 它 是 变量 选择 与 建立 最 优 回归 的 有 效 方式 。 
何 为 “最 优 ”? 主要 有 两 个 方面 : 首先 ， 自 变量 个 数 要 适中 。 若 自 变量 太 多 ， 预 测 的 计算 量 增 大 ， 
并 且 造 成 剩余 标准 差 也 较 大 ， 其 次， 保证 自 变量 的 显著 性 ， 对 因 变 量 的 解释 作用 越 强 越 好 ， 所 以 
引入 和 剔除 自 变量 时 都 要 进行 显著 性 检验 ， 使 之 达到 最 优 状 态 。 


R 中 进行 逐步 回归 的 函数 是 step0,， 以 47C 信息 准则 作为 添加 或 删除 变量 的 判别 方法 。47C 准 
则 由 日 本 统计 学 家 赤 池 弘 次 创立 ， 建 立 在 粹 的 概念 基础 上 ， 一 般 情况 47C 表示 为 


AIC =2(p+1)-2In(L) 


其 中 , p 是 回归 模型 中 自 变 量 的 个 数 , 工 是 似 然 函数 。AIC 用 于 寻找 解释 性 最 好 且 包 含 最 少 自 
由 参数 的 模型 ， 所 以 选择 变量 时 优先 考虑 的 模型 应 是 47C 值 最 小 的 那 一 个 。step0 的 调用 格式 为 

step(object, scope, scale = 0, direction = c("both", "backward", "forward"), 

trace = 1, keep = NULL, steps = 1000, k = 2, ...) 

其 中 ，object 是 线性 模型 或 广义 线性 模型 的 分 析 结 果 ; scope 确定 逐步 搜索 的 范围 ， 是 一 个 公 
式 或 包含 upper、lower 的 列表 ; direction 确定 逐步 回归 的 方法 ， 默 认 值 “both” 指 “一 切 子 集 回 
归 法 ”“backward” 指 后 退 法 ,“forward” 指 前 进 法 。trace 若是 正 值 ， 则 逐步 回归 分 析 的 过 程 将 
打印 出 来 ，keep 是 一 个 过 滤器 的 功能 ， 通 常 keep 选择 对 象 元 素 的 一 个 子 集 并 返回 ，steps 表示 回 
归 的 最 大 步 数 ; k 指 47C 中 的 自由 度 。 

对 上 一 节 的 例子 作 逐 步 回归 ， 每 一 步 的 分 析 都 将 在 结果 中 显示 。 

> lm.step=step (lm.reg) 


Start: AIC=223.73 
YY 实证 玉 2 下 3 二 和 才 六 S57 让 六 人 6 


Df Sum of Sq RSS AIC 
- X2 上 58668 775347 223.31 
<none> 716679 223.73 


| 101324 818003 224.38 
X6 上 183147 899826 226.28 
X5 1 811757 1528436 236.88 
X3 | 证 2008013 有 3234694 280.05 
x4 1 17048151 17764830 285.94 


Step: AIC=223.31 
和 3 十 - 吏 和 十 六 55 二 这 自 


Df Sum of Sq RSS AIC 
= XK] 43428 818775 222.40 
<none> THISB3AT 223 .31 


= :XE 此 218417 993764 226.27 

RE 1 1837987 2613334 245.61 
一 x4 1 22288387 23063734 289.16 
= 3 1 97699918 98475265 318.19 
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Step: AIC=222.4 
Ye tk3 | X44 x5° + 6 


Df Sum of Sq RSS AIC 
<none> 818775 222.40 
= 3X6 = 185123 1003898 224.47 
5 1 2873929. /3692704 .250.52 
-4 1 41113643 41932417 299.12 

1 


一 3 98701814 99520589 316.40 


在 默认 情况 下 ， 逐 步 回归 的 每 一 步 过 程 都 会 打印 出 来 ， 本 例 中 逐步 回归 经 历 了 三 步 ， 分 别 吻 
除了 不 显著 的 自 变 量 za 和 x,，AIC 逐渐 减 小 。 最 终 ，R 会 选择 47C 最 小 的 那个 模型 ， 即 “最 优 ” 
回归 方程 。 

> summary (lm.step) 


al 
lm(formula = y ~ x3 + x4 + x5 + x6, data = revenue) 


Residuals: 
Min 10 Median 3Q Max 
-325.62 =147.54 14.07 108.28 427.42 


Coefficients: 
Estimate Std. Error 七 Value Pr(>| 七 |) 
(Intercept) 6.339e+04 2.346e+03 27.020 3.89e-14 *** 


x3 6.584e-01 1 .35488=02 42.523 < .286-16 *** 

x4 -5.438e-01 1.981e=02 ~27.445 3.09e=]4 ** 交 

x5 -1 .392e-01 i1918e=02 =7.256 2580e-06 *** 

X6 -1.803e-02 9.788e-03 -1.842 0.0854 . 

Sionif, Codes: 0 uk OQ.001 xs 0.01 wr 8.05 1 Ql 了 1 


Residual standard error: 233.6 on 15 degrees of freedom 
Multiple R-squared: 0.9999, Adjusted R-squared: 0.9999 
F-statistic: 3.476e+04 on 4 and 15 DF, p-value: < 2.2e-16 


逐步 回归 直接 得 到 根据 41C 选择 的 最 优 模型 ， 回 归 方 程 所 有 的 检验 都 是 显著 的 ， 得 到 的 方程 为 
Y=63390+0.6584X, —0.5438X, —0.1392X, —0.01803X, 


9.3 回归 诊断 及 R 实现 


回归 分 析 完 成 后 , 我 们 仅 从 显著 性 检验 的 角度 了 解 回归 效果 , 但 模型 的 其 他 特性 还 有 待 商 椎 ， 
例如 异常 值 、 共 线性 等 问题 ， 所 以 我 们 应 该 立即 进行 回归 诊断 。 本 节 主 要 包括 三 个 部 分 的 内 容 : 
残 差 诊 断 、 影 响 分 析 以 及 多 重 共 线 性 诊断 。 
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9.3.1 残 差 诊断 
通过 分 析 残 差 我 们 可 以 发 现 数据 是 否 存在 异常 值 。 异 常 值 有 两 种 : 一 种 是 “ 真 的 ” 指 由 于 
模型 的 缺陷 、 数 据 违背 统计 假设 、 特 殊 个 案 等 因素 形成 的 异常 值 ， 还 有 一 种 “ 假 的 ”的 异常 值 ， 
是 由 于 失误 造成 的 ， 比 如 数据 录入 错误 、 计 算 错 误 、 测 量 错 误 等 。 残 差 也 分 为 几 类 : 普通 残 差 、 
标准 化 残 差 、 学 生化 残 差 等 。 
(1) 普通 残 差 
线性 回归 模型 为 了 Z=XP+E， 由 回归 系数 估计 值 让 = (CX7XZ)- 8Z77 得 到 了 的 拟 合 值 为 
Y=XP=X(XX) XY = HY 
其 中 ， 太 =XX(X7X)1X? 称 为 帽子 矩阵 ， 从 而 残 差 向 量 为 <=Y_- 了 =(1-H)Y。 
利用 最 小 二 乘法 计算 回归 模型 时 ， 假 设 中 对 残 差 的 要 求 是 满足 独立 性 和 方差 齐 性 的 。 所 以 提 
取 模 型 残 差 后 , 我 们 要 通过 画图 和 检验 作 残 差 诊断 。 残 差 图 是 以 数据 序号 或 y 的 拟 合 值 为 横 坐 标 、 
残 差 为 纵 坐 标的 散 点 图 ， 常 见 的 图 形 形 状 分 为 如 图 9.5 所 示 的 几 类 。 





a. 回归 方程 拟 合 较 好 b. 样本 数据 中 存在 异常 值 





c. 回归 方程 具有 曲线 形式 
图 9.5 不 同类 型 的 残 差 图 
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d. 随机 误差 项 存在 异 方差 性 





e. 随机 误差 项 存在 自 相关 性 
图 9.5 不 同类 型 的 残 差 图 〈 续 ) 
R 中 提取 残 差 有 两 种 方式 ， 既 可 以 用 前 面 提 到 的 函数 residuals()， 也 可 以 用 符号 “$” 直 接 提 
取 回 归 分 析 生成 的 对 象 中 的 元 素 residual。 
我 们 提取 财政 收入 案例 中 的 模型 残 差 ， 并 绘制 残 差 图 ， 查 看 残 差分 布 情况 。 
> y.res=lm.reg$residual 


> y.fit=predict (lm.reg) # 计 算 y 的 预测 值 ， 作 为 残 差 图 的 横 坐 标 
> plot (y.res~y.fit,main=" 残 差 图 ") 


绘制 结果 如 果 9.6 所 示 。 


0 200 


yres 





-300 


10000 30000 50000 70000 
yfit 


图 9.6 ”财政 收入 预测 的 残 差 图 
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从 图 中 可 以 看 出 ， 残 差 的 分 布 较为 均匀 ， 直 观 上 大 致 满足 模型 的 假设 条 件 ， 再 利用 
Shapiro-Wilk 检验 判断 正 态 性 。 
> shapiro.test(y.res) 
Shapiro-Wilk normality test 


data: y.res 
W = 0.9621, p-value = 0.5873 


上 一 章 介 绍 过 Shapiro-Wilk 正 态 检 验 ， 从 结果 可 知 ，P 值 =0.5873 远 远大 于 显著 性 水 平 0.05， 
故 不 能 拒绝 原 假设 ， 说 明 数 据 服 从 正 态 分 布 。 


(2) 标准 化 残 差 

普通 残 差 与 数据 的 数量 级 有 关 ， 除 以 标准 误差 后 得 到 标准 化 残 差 。 由 于 
E(£)=0, Var(£)=0o(I-H) 

因此 对 每 个 2， 有 


入 


ei 





~ N(0,1) 


r= 
CA\/1 一 


其 中 ，hi 是 矩阵 五 对 角 线 上 的 第 i 个 元 素 。xi 称 为 标准 化 残 差 ， 模 型 拟 合 较 好 的 情况 下 将 服 
从 标准 正 态 分 布 。R 中 用 函数 rstandard0) 提 取 标 准 化 残 差 ， 调 用 格式 为 


rstandard (model, infl = lm.influence (model, do.coef = FALSE), 
sd = sqrt (deviance (model)/df.residual (model)), ...) 


参数 model 是 由 lm0) 或 glIim0 生 成 的 对 象 ; infl 是 由 lm.influence0 返 回 的 影响 结构 ; sd 是 模型 
的 标准 差 。 

(3) 学 生化 残 差 

有 时 为 了 回避 标准 化 残 差 的 方差 齐 性 假设 ， 我 们 使 用 学 生化 残 差 ， 它 和 标准 化 残 差 的 区 别 在 
于 ,其 对 每 个 六 都 单独 计算 标准 误差 。 删 除 第 i 个 样本 点 后 ， 用 剩余 数据 计算 的 回归 系数 为 访 ，， 
这 时 er” 的 估计 值 为 


2 1 
0) = 
Wl 





yy 20 -Xbo) 


jxi 


其 中 ,总 是 设计 矩阵 天 的 第 7 行 ，P 为 自 变量 的 个 数 ，7 为 样本 容量 。 从 而 学 生化 残 差 等 于 
6 


1 


Oo y 1 一 h; 
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R 中 用 rstudentO 计 算 标 准 化 残 差 ， 调 用 格式 与 rstandard() 类 似 ， 参 数 res 指定 模型 残 差 。 


rstudent (model, infl] = lm.influence (model, do.coef = FALSE), res = infl$wt.res, ) 
9.3.2 ”影响 分 析 


回归 诊断 要 研究 的 男 一 个 重要 问题 ， 是 对 参数 估计 或 预测 值 有 异常 影响 的 数据 ， 称 为 强 影响 
数据 。 回 归 模型 应 当 具 有 一 定 的 稳定 性 ， 如 果 个 别 一 两 组 数据 对 估计 有 蜡 常 大 的 影响 ， 当 我 们 易 
除 这 些 数据 之 后 ， 将 得 到 与 原来 差异 很 大 的 经 验 回 归 方 程 ， 从 而 我 们 将 有 理由 怀疑 原 回 归 方程 是 
否 真 正 描述 了 变量 之 间 的 客观 存在 的 相依 关系 。 因 此 我 们 要 考察 每 组 数据 对 参数 估计 的 影响 大 
小 ， 这 部 分 内 容 在 回归 诊断 中 统称 为 影响 分 析 。 

(1) Leverage 


Leverage 即 帽 子 和 矩阵 太 的 对 角 元 素 ， 由 于 了 = HY ， 从 空间 几何 的 角度 ， 志 是 将 观测 向 量 了 
正 交 投影 到 由 蕊 的 列 向 量 所 生成 的 子 空间 上 的 投影 矩阵 ， 有 
=h, 
97 
hi 为 互 的 对 角 元 素 ， 表示 第 i 个 样本 对 六 的 影响 力 。 另 外 ， 多 的 方差 为 Var( 六 )=ho?， 所 以 
hi 也 反映 了 此 的 波动 情况 。Leverage 的 特点 是 只 与 预测 量 有 关 ， 由 预测 量 的 变 差 决定 。 如 果 hs 
较 大 ， 说 明 第 i 组 样本 的 影响 较 大 ， 是 异常 值 点 。Hoaglin 和 Welsch (1978) 给 出 的 判断 依据 是 
>2p+) 
n 
R 中 计算 Leverage 的 函数 为 hatvalues0 和 hat()， 调 用 格式 为 


hatvalues (model, infl = lm.influence (model, do.coef = FALSE), ...) 
hat (x, intercept = TRUE) 


其 中 的 参数 设置 与 残 差 函 数 类 似 ，model 是 回归 分 析 lmO 返 回 的 对 象 ， x 为 设计 矩阵 。 


> hii=hatvalues (lm.step) # 计 算 Leverage 


> p=4;n=20 
> hii>2* (p+1) /n # 将 hii 与 经 验 判断 标准 进行 比较 
1 2 3 4 5 6 呈 8 9 10 a 下 及 | 


TRUE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE 
14 15 16 Ei 18 19 20 
FALSE FALSE FALSE FALSE TRUE FALSE TRUE 


在 财政 收入 的 回归 诊断 中 ， 有 三 个 样本 点 的 Leverage 高 于 2(p+1)/n (判断 结果 为 TRUE), 说 
明 可 能 是 异常 值 点 。 
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(2) DFFITS 统计 量 
另 一 种 判断 强 影 响 点 的 方法 是 DFFITS 统计 量 ， 根 据 帽子 矩阵 的 对 角 元 素 计算 ， 公 式 为 


六 


Es 二 A h. 


|P(ol> 2 es 
n 


则 认为 第 i 个 样本 是 强 影 响 点 ， 可 能 为 异常 值 。R 中 计算 DFFITS 统计 量 的 函数 是 dffits()， 
调用 格式 为 dffits(model, infl = , res = )。 对 上 例 继续 进行 计算 


> dff=dffits (lm.step) 
> dff>2*sqrt ( (p+1) /n) 


D.(o)= 


对 于 第 i 个 样本 ， 若 


1 2 3 4 5 6 而 8 9 10 1 12 13 
TRUE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE 
14 15 16 村 18 19 20 


FALSE FALSE FALSE FALSE FALSE TRUE FALSE 
根据 DFFITS 准则 ， 发 现 第 19 个 样本 点 的 影响 较 大 。 


(3) Cook's 距离 

Cook’”s 距离 是 Cook 在 1977 年 提出 的 一 个 统计 量 ， 也 用 来 发 现 对 回归 影响 较 大 的 数据 元 素 ， 
定义 为 

万 = (PB-pb,) XX(B-AB,) 
s (p+1)0’ 

其 中 ， 局 ,为 剔除 第 i 个 样本 后 由 剩余 样本 拟 合 得 到 的 回归 系数 。D; 越 大 的 观测 值 越 有 可 能 
是 异常 值 点 ， 经 验 判断 标准 是 ， 当 | 刀 | > 4/n 时 ， 认 为 是 强 影响 点 。R 中 用 函数 cooks.distance() 
计算 Cook’s 距离 。 


> cook=cooks.distance (lm.step) 
> cook>4/n 


》 A 


1 2 3 4 二 6 水 8 9 10 Fs 12 13 
TRUE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSEFALSE 
14 ES 16 17 18 i9 20 


FALSE FALSE FALSE FALSE TRUE TRUE TRUE 


根据 Cook’s 距离 判断 的 异常 值 点 分 别 是 第 1、18、19、20 个 样本 ， 与 Leverage 和 DFFITS 
统计 量 判断 的 强 影响 点 一 致 。 
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(4) COVRATIO 准则 


COVRATIO 顾名思义 就 是 协 方 差 的 比值 ， 用 吻 除 第 i 个 样本 后 计算 的 回归 系数 估计 值 的 协 方 
差 矩 阵 ， 与 完整 样本 估计 得 到 的 回归 系数 协 方 差 矩 阵 作 比较 ， 两 者 分 别 为 


Var(P = XE, War(B Y= EY 


COVRATIO 统计 量 为 两 个 协 方 差 行列 式 的 比值 


COVRATIO = 


dettt (XR) ) SA (六 四] 
det(o* (XX)'!) 


1 


(GD)2 1—h, 


用 样本 点 对 应 的 COVRATIO 值 与 1 作 比 较 ， 若 差别 很 大 ， 则 说 明 该 样本 点 对 回归 模型 拟 合 
效果 的 影响 较 大 。R 中 用 函数 covratio0 计 算 COVRATIO 统计 量 。 


> covratiol(lm.step) 


二 


2 


0.7419 1.2893 


12 


13 


1.4620 1.5686 


3 


4 


5 


6 


7 


8 


9 


10 


11 


1.6064 0.3699 1.6074 0.7233 1.6636 1.6562 0.9875 1.5804 1.4751 
14 


1.7414 1.7246 1.7229 1.6754 1.3233 0.4507 2.2776 


以 上 4 种 统计 量 都 是 用 于 诊断 异常 值 的 方法 ， 每 种 方法 在 R 语言 中 都 对 应 一 个 计算 函数 。 另 
外 ， 函 数 influence.measures(model) 提 供 了 这 些 影响 分 析 的 汇总 概括 ， 返 回 结果 为 一 个 列表 ， 包 括 
了 dfbeta、DFFITS、Cook 距离 以 及 COVRATIO 等 多 个 统计 量 。 


# 打 印 结果 显示 3 位 小 数 


> options (digits=3) 


13 


> influence.measures (lm.step) 


Influence measures of 
1m(formula =Yy ~ X3 十 


OoONohwWN 


dfb.1_ 


= 王 。 
0. 
0. 
0. 
-0. 
-0. 
0. 
-0. 
0. 
= 
0. 
-0Q. 
-0. 
-0. 
-0. 
-0. 
0. 
0. 
0. 
-1, 


44679 
38716 
11252 
37588 
02465 
14902 
00169 
00809 
13697 
O1111 
16029 
i14967 
06000 
02041 
13676 
06965 
05366 
39012 
68510 


dfb.x3 


-0. 
0. 
0. 
0. 

-0. 
0. 

-0. 

-0. 
9. 

-0. 
0. 

-0. 

-0. 
0. 

-0. 
oO. 

-0. 

-2 

-0. 


22591 
23223 
08997 
17465 
01482 
22479 
00975 
03480 
21365 
00844 
03967 
00379 
01728 
00180 
03369 
01742 
09005 
59618 
12754 


26681 1.17673 


| 
mooooooooc 


16 


7 


18 


x4 + x5 + x5, data = revenge) : 


dfb. x4 


.119663 
-0. 
-0. 
-0. 

0. 
-088956 
-0. 
.002729 
-0. 
.O010843 
-0. 
.134607 
-064140 
.O016692 
.212189 


#437053 
112099 
329567 
037224 


000987 
129581 


129195 


102674 
074534 
316284 


641454 
-496385 


0. 
-0 
-0. 
-0. 

0. 
-0. 

0. 

0. 
-0. 

0. 
-0. 
-0 

0. 
-0. 
-0. 
-0. 

0. 

2 

0. 
-4。 


dfb.x5 
i4732 
i17219 
07834 
16019 
01097 
20354 
00916 
03289 
17927 
00616 
02057 
01589 
00630 
00354 
00676 
03311 
09515 
46303 
31319 
54518 


1 
0 
0 
-0 


-0. 
0. 
-0. 
0. 
-0. 
0. 
-0. 
0. 
-0. 
0. 
-0. 
-0. 
0. 
-0. 
-0 
-0. 


dfb. x6 
.32565 
.36073 
.04643 
.05680 
07884 
25529 
00393 
02379 
03701 
00185 
16064 
08760 
01665 
01936 
35142 
14929 
O08105 
82909 
35434 
63371 


1 1 
eoppoopepepn 


1 
Po 


1 


-2. 


dffit 
.1320 
.7525 
2318 
8331 
1292 
5588 
0135 
.0583 
4043 
.0215 
.2749 
.2153 
-0906 
.0313 
-4415 
2116 
:1885 
9474 
5756 
7384 
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COV.r 
0.742 
1.289 
1.606 
0.370 
1.607 
0.723 
1.664 
1.656 
0.987 
1.580 
1.475 
1.#62 
1.569 
1.741 
1.725 
1.723 
1.675 
.323 
0.451 
2.278 


PWNODANPHOPOWNWYwWPeH YN 


20 


cook.d 


.#3e-01 
.1lie-01 
.13e-02 
.lie-01 
.55e-03 


71e-02 
8g9e-05 


.26e-04 
.19e-02 
.89e-05 
.58e-02 
.73e-03 
.758-03 
.09e-04 
.05e-02 
.49e-03 
“53e-03 
.45e+00 
.9ie-01 


35e+00 


hat inf 


0. 510 
0.301 
0.190 
0.126 
0.151 
0.115 
0.152 
0.153 
0.106 
0.108 
0.164 
0.132 
0.119 
0.190 
0.301 
0.224 
0.199 
0.689 
0.329 
0.739 


实 
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9.3.3 ”多 重 共 线性 诊断 


多 重 共 线性 是 指 线性 回归 模型 中 的 解释 变量 之 间 由 于 存在 线性 关系 或 近似 线性 关系 ， 而 使 模 
型 难以 估计 准确 ， 这 种 现象 在 经 济 数 据 中 尤为 普遍 。 一 般 来 说 ， 产 生 多 重 共 线 性 的 原因 主要 有 三 
个 方面 : 

。 ”经 济 变 量 相关 的 共同 趋势 。 例 如 经 济 繁荣 期 ， 各 基本 经 济 变 量 都 趋 于 增长 。 

。 ” 灌 后 变量 的 引入 。 例 如 消费 受 当 期 收入 和 前 期 收入 的 影响 。 

。 ”样本 资料 的 限制 。 完 全 符合 理论 模型 要 求 的 样本 数据 很 难 收集 ， 实 际 样本 或 多 或 少 都 会 

存在 某 种 程度 的 共 线 性 。 
对 于 p(p > 2) 个 自 变量 ， 如 果 存 在 常数 C0,C,"…,C, 使 得 
CI 十 C 汉 2 十 … 十 CA 二 Co 

近似 成 立 ， 则 表示 这 疡 个 变量 间 存 在 多 重 共 线性 。 诊 断 多 重 共 线 性 有 以 下 几 种 方法 。 

(1) 特征 根 分 析 

若 自 变量 之 间 存 在 共 线 性 ， 则 设计 和 矩阵 不 是 列 满 秩 的 ， 将 邯 ,, 羡 ,,…, 半 ,标准 化 和 中 心 化 后 变 
换 为 主 对 角 线 是 1 的 矩阵 ,可 以 证 明 行列 式 |X"X|~x0。 根据 矩阵 行列 式 的 性 质 ,行列 式 等 于 其 
特征 根 的 连 乘积 ， 所 以 矩阵 XxX? 至 少 有 一 个 特征 根 近似 为 0。 车 有 r 个 特征 根 近 似 为 0， 则 回归 
设计 答 了 泗 卫 中 有 7 个 共 线 性 关系 ， 且 共 线 性 关系 的 系数 向 量 c0,61,…,c 就 是 近似 为 0 的 特征 根 对 
应 的 特征 向 量 。 


R 中 计算 矩阵 特征 根 和 特征 向 量 的 函数 是 eigen0， 调 用 格式 为 


eigen (x, symmetric, only.values = FALSE, EISPACK = FALSE) 


x 是 待 计算 的 矩阵 ，symmetric 车 为 TRUE， 则 假设 矩阵 是 对 称 的 ;， only.values 默认 返回 特征 
根 和 特征 向 量 ， 若 为 TRUE 则 仅 返 回 特征 根 。 使 用 函数 eigen0 特 别 要 注意 的 一 点 是 ， 和 矩阵 x 必须 
是 经 过 标准 化 和 中 心 化 后 的 和 矩阵， 其 主 对 角 线 元 素 都 是 1。 在 R 软件 中 用 函数 cor0 对 矩阵 计算 相 
关系 数 其 实 就 是 对 一 个 普通 矩阵 进行 标准 化 的 过 程 。 

对 财政 收入 案例 中 的 6 个 变量 样本 组 成 的 设计 矩阵 计算 特征 值 ; 

> options (digits=3) 

> xxX=cor (revenue [3:8]) # 提 取 设 计 短 阵 并 标准 化 

> eigen (xx) 


$values 
[1] 4.980418 0.838539 0.162066 0.012847 0.005649 0.000481 


$vectors 
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[,1] [,2] [,3] [,4] [,5] [.6] 


[6, 0..20Q1 -Qa9757 


局 


[1,] -0.445 -0.0735 0.00746 0.8536 0.023853 -0.25950 

[2,] -0.444 -0.0582 0.26445 -0.0788 0.618251 0.58376 

[a] 二 0.443 ~00729 0.30977, =0.2538 0213713 -0..69122 

Fay] 0 A414 "=0.1640 0.86809 -=0:2125' 0.000528 ， 02063583 

[5,] -0.443 -0.0834 0.26783 -0.1168 -0.773369 0.33617 
] 0 


.08372 0.0200 .017073 0.00212 


最 小 的 特征 根 为 0.000481， 十 分 接近 0， 说 明 6 个 自 变 量 间 一 定 存 在 多 重 共 线 性 ， 根 据 对 应 
的 特征 向 量 [,6] 还 可 以 写 出 共 线 性 关系 。 正 是 由 于 这 种 共 线 性 的 存在 , 逐步 回归 中 系统 自动 剔除 了 
变量 xi、 X20 


(2) 条 件数 

特征 根 分 析 表 明 当 和 拖 阵 Z7 和 有 一 个 特征 根 近似 为 零 时 ， 设 计 和 矩阵 蕊 的 列 向 量 间 必 然 存 在 共 
线性 , 但 这 种 共 线 性 的 严重 程度 如 何 呢 ? 为 了 更 具体 地 分 析 , 我 们 引入 一 个 重要 指标 一 一 条 件数 ， 
它 的 计算 公式 为 
和 
1 (XX) 


min 


x(¥'X)= 


其 中 4 、4uu 分 别 表 示 方 阵 X7X 的 最 大 、 最 小 特征 根 。 直 观 上 ， 条 件数 刻画 矩阵 ?XX 特 
征 根 的 最 大 差异 ， 特 征 根 的 最 小 值 越 接 近 于 0， 条 件数 的 值 越 大 ， 多 重 共 线 性 就 越 严 重 。 经 验 上 ， 
K<100 说 明 共 线性 程度 较 小 ; 100< k<1000 说 明 变量 间 存 在 中 等 程度 的 共 线 性 ， 若 Kk >1000， 
则 认为 存在 严重 的 多 重 共 线性 。 

R 软件 提供 了 计算 矩阵 条 件数 的 函数 kappa0， 其 调用 格式 为 

kappa (z, exact = FALSE,norm = NULL, method = C("dqr"， "direct"), ...) 

z 为 计算 的 矩阵 ,exact 表 示 逻 辑 值 , 若 为 TRUE 表示 精确 计算 条 件数 ,默认 为 近似 计算 ;method 
指定 使 用 的 方法 ， 默 认为 QR 分 解 。 


> kappa (xx) 
[1] 6132 


在 财政 收入 的 例子 中 ， 包 含 所 有 变量 样本 数据 的 设计 矩阵 条 件数 是 6132>1000， 故 认为 多 重 
共 线 性 十 分 严重 。 


(3) 方差 扩大 因子 (VIF) 
统计 上 可 以 证 明 ， 自 变 量 XX, 的 回归 系数 估计 值 户 ,的 方差 可 以 表示 为 
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其 中 ，VIF; 即 为 变量 XX 的 方差 扩大 因子 ，Rj 为 自 变量 XX 对 其 余 自 变量 作 回 归 分 析 的 复 相 关 
系数 。 方 差 扩 大 因子 越 大 ， 表 明 自 变量 之 间 的 多 重 共 线 性 越 严重 ， 造 成 回归 系数 的 估计 值 很 不 稳 
定 ; 反之 ，VIF 越 接近 于 1， 共 线性 越 弱 。 经 验 表 明 ，VIF>10 说 明 模 型 中 有 很 强 的 共 线 性 。 


R 软件 的 统计 包 DAAG 中 ， 包 含有 计算 方差 扩大 因子 的 函数 vif()， 其 调用 格式 为 vifobj， 
digits=5)。obj 表示 用 函数 ImO0 生 成 的 回归 分 析 对 象 ;, digits 给 出 数字 的 小 数 点 位 数 , 默认 为 5。 另 
外 ， 程 序 包 fmsb 的 函数 VIF0 也 可 以 计算 方差 扩大 因子 。 例 如 ， 在 R 中 输入 指令 


> lm.reg=lm(y~xl1+x2+xX3+x4+x5+x6, data=revenue) 
> library (DAAG) 
> vif(lm.reg,digits=3) 

1 X2 X3 x4 X5 X6 
197.00 778.00 1010.00 10.50 343.00 1.28 


计算 结果 显示 ， 除 了 Xs 以 外 所 有 变量 的 方差 扩大 因子 均 大 于 10， 说 明 模 型 中 存在 很 强 的 多 
重 共 线 性 。 使 用 方差 扩大 因子 VIF 判断 共 线 性 还 有 一 个 好 处 是 ， 它 可 以 初步 判断 哪些 变量 之 间 存 
在 共 线 性 。 例 如 ， 变 量 多 和 名 方 差 扩 大 因子 最 大 ， 初 步 判 断 它们 之 间 可 能 存在 很 强 的 相关 性 ， 
计算 它们 的 相关 系数 : 


> attach (revenue) 

> cor (x2,x3) 

[1] 0.998 

可 知 ， 及 和 为 的 线性 相关 系数 高 达 0.998， 因 此 可 以 肯定 它们 之 间 存 在 严重 的 共 线 性 ， 所 以 
上 面 作 逐 步 回 归 的 过 程 中 就 噜 除了 变量 万 。 


9.4 上 岭 回归 及 R 实现 


在 多 元 线性 回归 分 析 中 ， 我 们 会 在 众多 变量 中 选择 对 因 变 量 显著 性 影响 大 的 那些 自 变 量 。 但 
这 时 我 们 常常 会 遇 到 一 个 问题 : 在 某 些 情况 下 ， 增 加 或 剔除 一 个 自 变量 后 回归 系数 变化 很 大 ， 甚 
至 改变 符号 。 为 什么 会 出 现 这 种 情况 呢 ? 主要 的 原因 是 变量 之 间 存 在 多 重 共 线性 ， 因 此 我 们 要 引 
入 岭 回归 。 


岭 回归 分 析 是 一 种 专用 于 共 线 性 数据 分 析 的 有 偏 估计 回归 方法 ， 实 质 上 是 一 种 改良 的 最 小 二 
乘 估 计 法 ， 它 是 通过 放弃 最 小 二 乘法 的 无 偏 性 ， 以 损失 部 分 信息 、 降 低 精度 为 代价 获得 回归 系数 
更 为 符合 实际 、 更 可 靠 的 回归 方法 ， 对 病态 数据 的 耐 受 性 远 远 强 于 最 小 二 乘法 。 

岭 回归 的 想法 比较 直观 ， 当 自 变 量 间 存在 多 重 共 线 性 时 ， 有 | 六 |~x 0， 我 们 设想 给 承 和 加 
上 一 个 正常 数 和 矩阵 k7(k > 0)， 那 么 基于 +k7 接近 奇异 的 程度 就 会 比 瑟 民 小 很 多 ， 从 而 消除 了 多 
重 共 线 性 。 


而 考虑 到 变量 的 量 纲 ， 应 首先 对 数据 进行 标准 化 ， 为 简便 计算 ， 标 准 化 后 的 设计 和 矩阵 仍 用 六 
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表示 。 我 们 称 
B(R)= (XX+EI XY 

为 8 的 岭 回 归 估 计 , 其 中 为 岭 参数 。 显然 , 岭 回归 估计 刀 值 比 最 小 二 乘 估 计 值 稳定 , 当 0 
时 的 岭 回归 估计 就 是 普通 最 小 二 乘 估计 。 

由 于 岭 参数 不 是 唯一 确定 的 , 所 以 我 们 得 到 的 岭 回归 估计 万 ( 虽 实际 是 回归 参数 厅 的 一 个 估 
计 族 。 当 岭 参数 大 在 (0,co) 内 变动 时 ， PB,(k) 是 上 的 函数 , 在 平面 坐标 系 上 把 函数 1 (k) 描画 出 来， 
形成 的 曲线 称 为 岭 迹 ， 岭 迹 图 如 图 9.7 所 示 。 





9.7 岭 迹 图 


根据 岭 迹 图 我 们 可 以 选择 合适 的 大 值 ， 称 为 岭 迹 法 ， 其 一 般 原 则 是 ; 


(1) 各 回归 系数 的 岭 估计 基本 稳定 ; 

(2) 最 小 二 乘 估计 的 回归 系数 符号 不 合理 时 ， 怜 估计 参数 的 符号 变 得 合理 ; 
(3) 回归 系数 没有 不 合乎 实际 意义 的 绝对 值 ; 

(4) 残 差 平方 和 增加 不 太 多 。 


R 的 核心 程序 包 MASS 中 有 专门 用 于 岭 回归 分 析 的 函数 Im.ridge()， 其 调用 格式 为 

lm.ridge (formula, data, subset, na.action, lambda = 0，model = FALSE, 

XxX = FALSE, y = FALSE, contrasts = NULL, ...) 

其 中 , formula 是 回归 模型 公式 表达 形式 , 形 如 response ~ predictors; data 指定 数据 的 数据 框 ; 
当 只 需要 data 的 一 个 子 集 参 与 计算 时 ， 用 参数 subset 来 设置 ，na.action 表示 遇 到 缺失 值 时 应 采取 
的 行为 ; lambda 是 岭 参 数 的 标量 或 矢量 ; model、x 和 y 均 为 逻辑 值 ， 分 别 表示 结果 是 否 返 回 模型 
框架 、 设 计 和 矩阵 和 响应 变量 。 


以 商品 销售 量 为 相应 变量 Y， 考 虑 有 关 的 4 个 因素 : 万 
价格 指数 ， 马 一 一 该 商品 的 社会 保有 量 ; 总 





可 支配 收入 ;万 一 一 该 商品 平均 
其 他 消费 品 平均 价格 指数 。 数 据 如 表 9.6 所 示 。 
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表 9.6 商品 销售 量 及 相关 因素 的 数据 


商品 销售 量 Y | 可 支配 收入 XX 平均 价格 指数 多 “| 社会 保有 量 闪 其 他 消费 品 平均 价格 指数 名 
同人 











首先 输入 数据 并 查看 数据 的 多 重 共 线性 情况 ， 计 算 瑟 的 条 件数 。 在 R 中 输入 如 下 指令 。 


> Y=6(8.4,9.6% 10.8,11.4,12.2,14.2,15.8,17.9719.6,20.8) 

> WI=se(82..9,.88,99.9,105.3117.7,131,148.2,161.8,;174.2,184.7) 
yy X26(92,93;96;94; 100,101,105, 112, 1127112) 

> 3G(17T .121.3.25.1,29,34,40,44,49;51; 53) 

> x4=c (94,96,97,97,100,101,104,109,111,111) 

> x=cbind (xl,x2,x3,X4) # 将 数据 按 列 合并 

> xx=crossprod (x) # 计 算 和 矩阵 交 又 积 ， 结 果 为 矩阵 X'X 

> kappa (xxvexact=T) ”# 计 算 条 件数 

[1] 81629.86 


得 到 的 条 件数 K= 81629.86 > 1000， 认 为 有 严重 的 多 重 共 线 性 。 因 此 ， 不 能 直接 用 最 小 二 乘 
法 估计 拟 合 回 归 方 程 。 考 虑 用 岭 回归 估计 方法 分 析 变 量 之 间 的 关系 ， 首 先 绘制 岭 迹 图 : 


> library (MASS) 
> plot (lm.ridge (y~xl+x2+x3+x4, lambda=seq (0,0.5,0.001))) 


绘制 结果 如 图 9.8 所 示 。 


t(x$coef) 





0.0 0.1 0.2 0.3 0.4 0.5 


x$lambda 
图 9.8 商品 销售 量 的 岭 迹 图 
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从 图 中 可 以 看 出 ， 曲 线 变 平 稳 的 速度 很 慢 ， 很 难 直接 得 出 适当 的 岭 参数 上 值 ， 而 了 可 以 通过 
函数 selectO 计 算出 根据 几 个 统计 量 得 到 的 大 值 : 

> select (lm.ridge (y~x1+x2+x3+x4, lambda=seq (0,0.5,0.001))) 

modified HKB estimator is 0.004265631 


modified L-W estimator is 0.004895202 
smallest value of GCV at 0.009 


其 中 ，HKB 和 L-W 分 别 为 不 同方 法 下 计算 得 到 的 岭 参数 估计 值 ， 据 此 我 们 选择 
lambda=0.0045， 从 而 给 出 相应 的 参数 估计 : 


> options (digits=3) 
> lm.ridge (y~xl+x2+X3+x4, lambda=0 .0045) 


及 工 X2 区 3 X4 
-17-5554— 00887 一 ~052480- ‘0750202 一 人 -4073 
最 终 得 到 的 岭 回归 方程 为 


y=—17.5554+0.0887x, —0.218x, + 0.0202x + 0.4073x, 


9.5 ”广义 线性 模型 
9.5.1 ”模型 理论 


广义 线性 模型 (Generalized Linear Model ) 是 一 般 线性 模型 的 推广 ， 由 Nelder 和 
Wedderbum(1972) 首 次 提出 。 它 使 因 变 量 的 总 体 均值 通过 一 个 非 线性 连接 函数 而 依赖 于 线性 预测 
值 ， 允 许 响 应 概率 分 布 为 指数 分 布 族 中 的 任何 一 员 。 许 多 广泛 应 用 的 统计 模型 都 属于 广义 线性 模 
型 ， 如 常用 于 研究 二 元 分 类 响应 变量 的 Logistic 回归 、Poisson 回归 和 和 负 二 项 回归 模型 等 。 一 个 广 
义 线性 模型 包含 以 下 三 个 部 分 : 

中 随机 成 分 。 观 察 值 马 相 互 独立 ， 且 服从 指数 分 布 族 。 

@ ”线性 成 分 。 7 =Bo + XBi+.…+ Xp 。 

@ ”连接 函数 g。g 单调 可 微 ，7], = g(44)。 


因此 广义 线性 模型 的 一 般 形式 是 
8(4)= B+Bxt+ px + “BX 十 已 
了 服从 指数 分 布 族 ， 其 概率 密度 可 表示 为 





f(yi,0,9)= ee) 
a(9) 
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其 中 ，@ 称 为 自然 参数 ， 它 与 均值 有 关 ， 对 每 个 观察 值 是 不 同 的 ， 4 为 离散 参数 ， 与 方差 有 关 ， 
对 每 个 观察 值 都 是 相同 的 ; a, b、c 为 已 知 函 数 , 对 所 有 观察 值 具 有 相同 形式 。 因 此 , 每 个 观察 值 
都 来 自 于 同一 个 分 布 , 但 它们 的 均值 因 自然 参数 @ 的 不 同 而 变化 。 密度 函 数 可 以 表示 为 上 述 形式 的 
分 布 ， 包 括 正 态 分 布 、 泊 松 分 布 、 伽 马 分 布 、 二 项 分 布 、 逆 高 斯 分 布 等 ， 如 表 9.7 所 示 。 


表 9.7 各 种 常见 的 指数 型 分 布 及 其 主要 参数 





典型 的 连接 函数 有 4 种， 总结 在 表 9.8 中 。 
表 9.8 典型 的 连接 函数 及 对 应 分 布 


常见 对 应 分 布 
对 数 log(44)=7, E(y)=exp(x p) 泊 松 分 布 


i log[ys/( -1)]=7, pod 二 项 分 布 


广义 线性 模型 的 参数 佑 计 一 般 不 能 用 最 小 二 乘 估计， 常用 加 权 最 小 二 乘法 或 最 大 似 然 法 佑 
计 ， 各 回归 系数 8 需 用 帮 代 方法 求解 。 


9.5.2 民 语言 实 现 
R 提供 了 拟 合 广义 线性 模型 的 函数 glmO0， 其 调用 格式 为 


glm(formula，family = gaussian, data, weights, subset, na.action, start = NULL, 
etastart, mustart,offset, control = list{(...),...) 










伽 马 分 布 





其 中 ，formula 为 拟 合 公式 ， 与 函数 Im() 中 的 参数 formula 用 法 相同 ， 最 重要 的 参数 是 family， 
用 于 指定 分 布 族 ， 包 括 正 态 分 布 (gaussian)、 二 项 分 布 binomial)、 泊 松 分 布 (poisson) 和 件 马 分 
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布 (Gamma), 分 布 族 还 可 以 通过 选项 link 来 指定 连接 函数 , 默认 值 为 family=gaussian (link=identity)， 
而 二 项 分 布 默认 的 连接 函数 是 logit， 即 family=binomial(link=logit);，data 指定 数据 集 ; offset 指定 线 
性 函数 的 常数 部 分 ， 通 常 反 映 已 知 信息 ; control 用 于 对 待 估 参 数 的 范围 进行 设置 。 


普通 线性 模型 要 求 变量 必须 是 连续 的 ， 但 广义 线性 模型 可 以 很 好 地 处 理 分 类 变量 。 例 如 保险 
数据 中 的 很 多 变量 都 是 分 类 的 定性 变量 ,在 R 中 对 其 建立 广义 线性 模型 可 以 较 好 地 解释 变量 关系 。 
对 某 车 险 保单 ， 考 虑 如 下 的 保单 索赔 次 数 数据 ， 根 据 车 型 、 被 保险 人 性 别 等 因素 对 保单 进行 分 组 
( 见 表 9.9)， 考 察 这 两 个 因素 对 索赔 次 数 的 影响 。 


表 9.9 车 险 保单 索赔 次 数 分 组 数据 


ED 








已 知 索赔 次 数 服 从 泊 松 分 布 ， 相 应 的 连接 函数 常用 对 数 连接 函数 ， 模 型 可 以 写 为 
Li=E(y;)=e€,:exp(xpBl + Xp t+...+ xX,p,) 


其 中 ，y 是 因 变量 索赔 次 数 ;，e, 是 风险 单位 数 ， 其 对 数值 属于 模型 线性 部 分 的 常数 项 ， 应 当 
用 参数 offset 指定 ; 半 为 解释 变量 一 一 包含 车 型 和 性 别 取 值 的 矩阵 。 


下 面 用 R 实现 ,首先 建立 数据 集 , 分 类 变量 直接 输入 定性 的 取 值 即 可 ，glm() 分 析 时 会 自动 转 
换 成 矩阵 了 ， 注 意 参 数 family 的 写法 。 

> dat=data.frame (y=c (42, 37, 10, 101, 73, 14),n=c(500, 1200, 100, 400, 500, 300), 

+ type=rep(c(' 小 ', ' 中 ',' 大 '),2),gender=rep(c(' 男 ', ' 女 ') ,each=3)) 

> dat$logn=log (dat$n) # 风 险 暴 露 数 取 对 数 

> dat.glm=glm(y~type+gender,offset=logn,data=dat, family=poisson (link=109g)) 

#offset 风险 单位 数 事先 已 知 

> summary (dat .glm) #glm 的 输出 结果 


Call: 
glm(formula = y ~ type + gender, family = poisson(link = log), 
data = dat, offset = logn) 


Deviance Residuals: 
1 4 ei 4 时 6 
0.333 -1.498 3.792 -0.209 i212 =1 .780 
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Coefficients: 
Estimate Std. Error z value Pr(>|z|) 
(Intercept) -3.797 0.236 -16.06 < 2e-16 *** 
type 小 1.268 0.222 5a71 lend < 
type 中 0.554 -230 ZA2 05916 * 
gender 女 于 TS 0.132 8.91 < 2e-16 *** 
Signifs Godes: 0 Tw**! 0Ou001 "sr O00 Pr O05 Te" Qi 1 1 


(Dispersion parameter for poisson family taken to be 1) 


Null deviance: 163.490 on 5 degrees of freedom 
Residual deviance: 21.413 on 2 degrees of freedom 
AIC: 61.68 


Number of Fisher Scoring iterations: 5 
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表 9.5 列举 的 提取 函数 对 glm0 的 返回 对 象 同样 适用 .在 R 中 建立 广义 线性 模型 的 方法 很 简单 ， 


summary() 输 出 的 结果 包含 很 多 信息 。 在 本 例 中 ， 估 计 的 回归 系数 都 是 非常 显著 的 ;，Null deviance 
可 以 认为 是 模型 的 残 差 ， 它 的 值 越 小 说 明 模 型 拟 合 效果 越 好 ; 模型 的 AIC 统计 量 为 61.68， 它 和 
deviance 一 起 可 以 用 来 作为 判断 标准 ， 选 取 合 适 的 分 布 族 和 链接 函数 。 


下 面 通过 作 图 来 观察 模型 拟 合 的 效果 ， 首 先 提取 模型 的 预测 值 ， 注 意 函数 predictO 提 取 的 是 


> dat.pre=predict (aat.glm) 
> layout (1) # 取 消 绘图 区 域 分 割 


线性 部 分 的 拟 合 值 ， 在 对 数 连接 函数 下 ， 要 得 到 了 的 拟 合 值 ， 应 当 再 做 一 次 指数 变换 。 以 实际 观 
测 值 为 横 坐 标 ， 模 型 拟 合 值 为 纵 坐 标 作 图 ， 散 点 越 接近 直线 y=x， 说 明 模 型 的 拟 合 效 果 越 好 。 


> plot (y, exp (dat .pre) ,xlab=' 观 测 值 ', ylab=' 拟 合 值 ' ,main=" 索 赔 次 数 的 拟 合 效果 ", pch="*") 


> abline (0,1) # 添 加 直线 yY=x， 截 距 为 0 斜率 为 1 


绘制 结果 如 图 9.9 所 示 。 
索赔 次 数 的 拟 合 效果 


拟 合 值 


20 40 60 80 100 


0 





EE T 
20 40 60 80 100 


观测 值 
图 9.9 泊 松 回归 拟 合 效果 图 
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如 果 自 变量 很 多 ， 最 终 的 模型 中 很 可 能 包含 不 显著 的 变量 ， 类 似 于 普通 线性 模型 ， 这 时 可 以 
用 step0 做 变量 筛选 。 


除了 上 面 提 到 的 4 种 典型 分 布 , 另 一 个 常用 的 分 布 族 是 负 二 项 分 布 ,函数 glm() 中 的 参数 family 
不 能 直接 指定 ， 这 时 要 使 用 程序 包 MASS 中 的 函数 glm.nb() 建 立 负 二 项 回归 ， 注 意 offset 的 写法 
稍 有 不 同 。 若 假设 上 例 中 的 索赔 次 数 服从 负 二 项 分 布 ， 在 R 中 应 输入 指令 : 

> library (MASS) 

> attach (dat) 

> dat.glmnb=glm.nb (y~typetgendert+offset (logn)) # 负 二 项 回归 

Warning message: 

In glm.nbly ~ type + gender + offset (logn)) : alternation limit reached 

> summary (dat .glmnb) # 输 出 结果 


Call: 


glm.nb (formula = y ~ type + gender + offset (logn), init.theta = 6.879011721, 
link = 109g) 


Deviance Residuals: 
1 pA 3 4 5 6 
-0.395 =1..020 1.535 05350 0.810 -1.646 


Coefficients: 
Estimate StQ。 Error 2 Value Pr (>|2z|) 
(Intercept) -3.0541 QZ2 =7532 分 :SG=1] 引 因 湾 克 
type 小 0.7430 0.4494 1:65 90-098 。 
type 中 0.0208 0.4514 0.05 0.963 
genqdez 女 90.7996 0.3528 2 0023. * 
SIonit,. codess © ter a0 ws O00 eT 00m Os 


(Dispersion parameter for Negative Binomial(6.88) family taken to be 1) 


Null deviance: 16.6831 on 5 degrees of freedom 
Residual deviance: 7.0412 on 2 degrees of freedom 
AIC: 60.45 


Number of Fisher Scoring iterations: 1 


Theta: 6.88 
SHEG Errs: S524 
Warning while fitting theta: alternation limit reached 


2 x log-likelihood: -50.45 
负 二 项 回归 拟 合 的 模型 AIC 为 60.45， 残 差 Null deviance 为 16.6831， 小 于 泊 松 回归 拟 合 的 残 


差 值 ， 说 明 负 二 项 分 布 的 广义 线性 模型 更 加 稳定 ， 但 从 回归 系数 的 显著 性 上 看 ， 泊 松 回归 拟 合 的 
变量 系数 更 加 显著 。 


“0O 。 


主 成 分 分 析 与 因子 分 析 


在 数据 分 析 中 ， 我 们 常常 面 对 判 断 某 一 事物 在 同类 事物 中 的 好 坏 、 优 劣 程度 及 其 发 展 规律 等 
问题 ， 然 而 影响 某 一 事物 的 特征 及 发 展 规律 的 因素 是 多 元 化 的 ， 为 了 更 加 深入 地 分 析 ， 我 们 需要 
综合 与 其 相关 的 各 种 影响 因素 进行 综合 分 析 和 评价 。 但 在 上 一 章 我 们 曾 提出 ， 多 变量 、 大 样本 的 
数据 会 带 来 多 重 共 线 性 等 问题 ， 各 影响 因素 所 反映 的 信息 重复 ， 反 而 会 影响 统计 结果 的 真实 性 和 
科学 性 。 因 此 ， 为 了 尽量 避免 信息 重合 和 减轻 工作 量 ， 人 们 提出 了 “ 降 维 ” 的 思想 ， 找 出 少数 几 
个 互 不 相关 的 综合 变量 来 尽 可 能 地 反映 原来 数据 所 含有 的 绝 大 部 分 信息 ， 主 成 分 分 析 和 因子 分 析 
正 是 为 解决 此 类 问题 而 产生 的 多 元 统计 分 析 方 法 。 


这 两 种 方法 有 相似 的 功能 ， 出 发 点 都 是 变量 的 相关 系数 矩阵 ， 目 的 在 于 寻找 多 个 变量 的 “ 代 
表 ” 所 以 常常 被 一 起 提 及 。 但 它们 之 间 既 有 联系 又 有 区 别 ， 我 们 在 实际 使 用 中 应 当 透 彻 地 理解 
两 种 方法 ， 避 免 混 淆 。 本 章 我 们 将 介绍 两 种 方法 的 模型 理论 ， 并 用 实际 案例 具体 说 明 如 何 用 R 软 
件 进 行 主 成 分 分 析 和 因子 分 析 。 


10.1 主 成 分 分 析 


10.1.1 理论 基础 


主 成 分 分 析 试 图 在 保证 数据 信息 丢失 最 少 的 原则 下 ， 将 多 变量 的 截面 数据 集 进 行 最 佳 综合 简 
化 ， 简 单 地 说 就 是 根据 多 个 指标 之 间 的 联系 ， 选 出 它们 的 某 种 线性 组 合 ， 从 而 化 为 少数 几 个 综合 
指标 。 


主 成 分 的 概念 最 早 由 Karl parson 在 1901 年 引进 ， 但 当时 只 是 对 非 随 机 变量 讨论 的 ，1933 年 
Hotelling 将 这 个 概念 推广 到 随机 变量 ,一 个 十 分 著名 的 案例 是 美国 统计 学 家 Stone 在 1947 年 关于 
国民 经 济 的 研究 ， 他 使 用 美国 1929-1938 年 的 数据 ， 总 结 了 可 以 反映 国民 收入 与 支出 情况 的 17 
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个 变量 ， 包 括 雇 主 补贴 、 消 费 资 料 和 生产 资料 、 纯 公共 支出 、 股 息 、 利 息 ， 等 等 。 在 进行 主 成 分 
分 析 后 ， 他 仅 用 三 个 新 的 指标 就 取代 了 原来 的 17 个 变量 , 解释 度 高 达 97.4%。 根据 这 些 变 量 之 间 
的 联系 和 经 济 学 知识 ，Stone 给 这 三 个 新 指标 分 别 命名 为 总 收入 Fl、 总 收入 变化 率 F, 和 经 济 发 展 
趋势 已。 

主 成 分 是 由 原始 指标 综合 形成 的 几 个 新 指标 ， 即 上 例 中 的 下 、F, 和 Ff。 根据 主 成 分 所 含 信 
息 量 的 大 小 称 为 “第 一 主 成 分 ” “第 二 主 成 分 ”等 。 主 成 分 与 原始 变量 之 间 的 关系 为 : 

@ 主 成 分 保留 了 原始 变量 绝 大 多 数 信息 ; 

@) 主 成 分 个 数 远 远 少 于 原始 变量 的 个 数 ; 

@ 各 个 主 成 分 之 间 互 不 相关 ; 

@ 每 个 主 成 分 都 是 原始 变量 的 线性 组 合 。 

下 面 以 具体 的 数学 模型 来 说 明 主 成 分 分 析 的 原理 。 


(1) 主 成 分 的 数学 模型 
设 气 , 涉 )，… 反 ,为 己 维 随机 变量 ， 主 成 分 分 析 就 是 将 己 个 观测 变量 通过 线性 组 合 转化 成 为 
Pp 个 新 的 指标 ， 即 
F =X + 十 :十 区 5 和 


Fi =Wwd tui, hob 


FP,=UunX tu tt, 
模型 满足 如 下 的 条 件 : 
@ 每 个 主 成 分 的 系数 平方 和 为 1， 即 zi 二 22 十 … 十 z2 =1; 
@) 主 成 分 之 间 相 互 独立 ， 无 重合 的 信息 ， 即 
CovF, F)=0, i#¥j, i, j=1, 2, …,p 





@ 主 成 分 的 方差 依次 递减 ， 重 要 性 依次 递减 
Var(F)>Var(F,)>:…>Var(F.,) 


主 成 分 分 析 的 目的 是 简化 变量 ， 主 成 分 的 个 数 通 常 小 于 原始 变量 的 个 数 ， 但 实际 问题 中 具体 
应 该 保留 几 个 主 成 分 呢 ? 我 们 自然 希望 主 成 分 尽 可 能 多 地 反映 原来 变量 的 信息 ， 所 以 要 权衡 主 成 
分 个 数 和 保留 的 信息 ， 这 里 的 “信息 ”用 方差 来 测量 ， 即 Fer(m ) 越 大 表示 五 包含 的 信息 越 多 。 
最 终 ， 新 的 指标 互 , 忆 ,…, 人 (Kk< Dp) 按 照 保 留 主要 信息 量 的 原则 充分 反映 原 指标 的 信息 ， 并 且 相 
互 独立 。 
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(2) 主 成 分 的 导出 


以 上 是 主 成 分 分 析 的 原理 ， 接 下 来 我 们 在 数学 模型 的 基础 上 ， 根 据 原始 数据 和 模型 的 三 个 条 
件 ， 导 出 主 成 分 。 主 成 分 的 数学 模型 写 为 矩阵 形式 是 


Ul U2 Wp |( 谤 


本 WU Ue Us, || X, = 
Wl, Ugg Uy Xs 
模型 要 求 主 成 分 之 间 互 不 相关 ， 所 以 主 成 分 之 间 的 协 方差 阵 应 该 是 一 个 对 角 阵 。 
需 0 
Var(F)=Var(AX)= AVar(X)A’ =42 4 = 人 = 所 
0 1 


p 


若 分 析 中 所 选择 的 经 济 变量 具有 不 同 的 量 纲 , 变量 水 平 差异 很 大 , 则 容易 造成 不 合理 的 结果 。 
为 了 避免 量 纲 的 影响 ， 我 们 常 将 随机 变量 标准 化 ， 标 准 化 后 的 协 方差 阵 就 是 蕊 的 相关 系数 阵 ， 所 
以 主 成 分 分 析 应 该 基于 相关 系数 矩阵 。 设 相关 阵 为 尺 ， 即 有 尺 = XX ， 用 RR 代替 之 x 


Var(F)= AXX’A’ =4R4 =A， RA’ =A'A 
的 特征 根 乞 , 力 ,…, 久 ,分 别 代 表 主 成 分 五 , 忆 ,…, 下 ,的 方差 , 且 和 > 之 .> 4 ，47 
的 列 向 量 是 九 对 应 的 特征 向 量 。 因 此 主 成 分 的 导出 转化 为 计算 相关 系数 和 矩阵 的 特征 值 多 ， 
= (wisia，…,W ) 则 是 相应 的 特征 向 量 。 
IR-41|=0 
最 后 一 个 步骤 是 根据 方差 贡献 率 选择 重要 的 主 成 分 ， 并 写 出 主 成 分 表达 式 。 


通过 计算 特征 向 量 可 以 得 到 pp 个 主 成 分 ， 其 方差 是 递减 的 ， 因 此 包含 的 信息 量 也 递减 。 为 了 
实现 降 维 ， 我 们 要 根据 各 个 主 成 分 累计 贡献 率 的 大 小 选取 前 上 个 主 成 分 。 贡 献 率 指 某 个 主 成 分 的 
方差 占 全 部 方差 的 比重 ， 也 就 是 某 个 特征 值 占 全 部 特征 值 合 计 的 比重 。 





三 Ot 
献 率 下 


贡献 率 越 大 ， 说 明 该 主 成 分 所 包含 的 原始 变量 的 信息 越 强 。 主 成 分 个 数 左 的 选取 ， 主 要 根据 
主 成 分 的 累计 方差 贡献 率 来 决定 , 一 般 要 求 累 计 贡 献 率 达到 80%~85% 以 上 , 这 样 才能 保证 新 的 综 
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合 变量 能 包括 原始 变量 的 绝 大 多 数 信息 。 


碎 石 图 (Scree plot) 也 可 以 作为 判断 主 成 分 个 数 的 标准 , 如 图 10.1 所 示 。 它 以 成 分 数 为 横 坐 标 ， 
特征 值 为 纵 坐 标 。 碎 石 图 相当 于 特征 值 变化 趋势 图 ， 特 征 值 由 陡峭 变 为 平坦 的 转折 点 即 为 选择 主 成 
分 的 最 佳 个 数 ， 例 如 图 10.1 中 我 们 可 以 选择 4 个 主 成 分 ， 更 精确 一 点 ， 可 以 选择 6 个 主 成 分 。 


Scree Plot 


Eigenvalue 





Wl i Mk i Rk 


Component Number 
图 10.1 碎 石 图 
所 与 的 第 i 个 分 类 的 相关 系数 称 为 因子 载荷 量 ， 即 


UN, uh 
,AY 2 i 
p 


因子 载荷 的 平方 可 看 作为 第 j 个 主 成 分 可 解释 下) 多 少 比率 的 信息 , 说明 ;在 第 j 个 主 成 分 
中 的 相对 重要 性 。 


(3) 主 成 分 分 析 的 步骤 


QD 计算 相关 系数 矩阵 ; 

@ 计算 相关 系数 矩阵 的 特征 根 及 对 应 的 特征 向 量 ; 

@ 选 出 最 大 的 特征 根 ， 对 应 的 特征 向 量 等 于 第 一 主 成 分 的 系数 ; 
选 出 第 二 大 的 特征 根 ， 对 应 的 特征 向 量 等 于 第 二 主 成 分 的 系数 








@ 计算 累积 贡献 率 ， 选 择 恰当 的 主 成 分 个 数 ; 
@ 写 出 前 个 主 成 分 的 表达 式 。 
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在 主 成 分 分 析 中 还 有 一 个 非常 关键 的 问题 是 如 何 给 主 成 分 赋予 新 的 、 合 理 的 解释 意义 ， 这 是 
根据 主 成 分 表达 式 的 系数 结合 理论 知识 来 进行 的 。 主 成 分 是 原来 变量 的 线性 组 合 ， 主 要 综合 系数 
绝对 值 大 的 那 几 个 变量 ， 若 几 个 变量 系数 大 小 相当 ， 应 认为 这 一 主 成 分 是 这 几 个 变量 的 总 和 。 但 
应 该 赋予 怎样 的 解释 意义 ， 还 要 结合 具体 实际 问题 和 专业 知识 ， 进 而 才能 达到 深刻 分 析 的 目的 。 


10.1.2 RR 语言 实现 
R 语言 中 ， 有 两 个 进行 主 成 分 分 析 的 函数 ， 首 先是 pricomp0， 其 调用 格式 有 两 种 ; 


princomp (formula, data = NULL, subset, na.action, ...) 


其 中 ，formula 类 似 于 lm0 中 的 参数 ， 用 于 指定 模型 表达 式 ， 但 主 成 分 分 析 中 没有 响应 变量 ; 
data 指定 数据 框 ; subset 用 于 选择 数据 矩阵 的 行 ， 选 出 数据 的 一 个 子 集 进行 分 析 ; na.action 表示 
数据 包含 缺失 值 时 应 该 采取 什么 措施 。 


princomp (x, cor = FALSE, Scores = TRUE, covmat = NULL, 
subset = rep (TRUE, nrowl(las.matrix(x))), ...) 


x 是 用 于 主 成 分 分 析 的 数据 集 ; cor 默认 为 FALSE， 表 示 使 用 样本 的 协 方差 阵 作 主 成 分 分 析 ， 
若 cor=TRUE 则 使 用 相关 系数 矩阵 R 求 主 成 分 ， 参 考 “ 主 成 分 导出 ”的 数学 推导 ， 使 用 相关 系数 
矩阵， 其 实 就 相当 于 将 数据 进行 标准 化 再 计算 主 成 分 。 如 果 数 据 不 用 参数 x 指定 ， 可 以 用 covmat 
直接 指定 协 方差 阵 。 其 他 参数 的 意义 参考 R 帮助 。 


查看 princompO 的 源 代码 ， 可 以 发 现 它 是 基于 特征 向 量 eigen0 函 数 计 算 的 ， 有 可 能 会 出 现 计 
算数 值 绝对 值 正确 但 符号 错误 的 问题 。 而 R 中 的 另 一 个 主 成 分 分 析 函 数 是 prcomp(0， 它 的 计算 方 
法 基于 矩阵 的 SVD 奇异 值 分 解 〈svd0 函 数 )， 相 比 princomp(O 在 数学 性 质 上 更 稳定 。 它 的 第 一 种 
调用 方式 与 princompO 一 致 ， 另 一 种 为 


PFCOmD (xX, retx = TRUE, center = TRUE, scalé. = FALSE,tol = NULL，...) 


x 是 用 于 主 成 分 分 析 的 数据 集 ， retx 是 逻辑 值 ， 指 示 是 否 旋转 数据 ， 即 中 心 化 和 标准 化 。 上 
文 我 们 讲 到 ， 实 际 分 析 中 为 了 避免 量 纲 对 方差 的 影响 ， 通 常 在 使 用 中 我 们 都 要 将 数据 标准 化 ， 所 
以 这 一 参数 的 默认 值 为 TRUE; center 也 是 轴 辑 值 ， 指 示 变 量 是 否 中 心 化 ; 若 scale.=TRUE 即使 
用 相关 阵 计 算 主 成 分 ， 默 认 使 用 协 方差 矩阵 。 


利用 主 成 分 分 析 函 数 返 回 一 个 对 象 后 ， 通 过 提取 函数 (上 一 章 曾 介绍 过 ) 可 以 得 到 不 同 的 信 
息 。 常用 的 函数 loadings0 是 “载荷 ”的 意思 ,所 以 用 来 显示 主 成 分 分 析 或 因子 分 析 中 的 载荷 系数 ， 
在 主 成 分 分 析 中 ， 即 主 成 分 对 应 原始 变量 线性 组 合 的 系数 。 用 函数 summary0) 提 取信 息 ， 其 中 有 
一 个 参数 loadings 是 逻辑 值 , 若 loadings=TRUE 直接 显示 载荷 系数 ,从 而 不 需要 再 用 函数 loadings() 
提取 。 类 似 于 回归 分 析 ， 还 可 以 用 函数 predict0 预 测 主 成 分 的 值 。 


随 着 R 程序 包 的 开发 ， 多 元 数据 分 析 程序 包 labdsv 中 也 有 专门 进行 主 成 分 分 析 的 函数 pca()， 
pca 即 主 成 分 分 析 principal components analysis 的 缩写 。 这 个 版 本 是 一 个 简单 的 prcomp 功能 ， 所 
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以 在 使 用 上 与 prcomp0 基 本 一 致 ， 调 用 格式 为 


pcal(lmat, cor = FALSE, dim = min (nzow (mat) ncol (mat))) 


mat 表示 矩阵 或 数据 框 ， 每 行为 一 个 样本 ，cor 表示 是 否 使 用 相关 系数 矩阵 计算 ， 默 认为 
FALSE， 表 示 使 用 协 方差 阵 计算 ， 但 实际 分 析 中 为 了 消除 量 纲 对 方差 的 影响 ， 我 们 通常 要 设置 
cor=TRUE; dim 为 返回 的 维 数 ， 即 提取 主 成 分 的 个 数 。 


利用 pca0 得 到 主 成 分 分 析 的 结果 后 ,返回 一 个 对 象 存储 分 析 结 果 , 我 们 可 以 继续 使 用 程序 包 
labdsv 中 的 函数 varplot.pca0 来 绘制 碎 石 图 以 及 累计 方差 图 ; 函数 loadings.pca() 提 取 和 载荷 系数 。 


主 成 分 分 析 作 为 一 种 常用 的 多 变量 分 析 方 法 ， 其 实际 应 用 十 分 广泛 ， 如 人口 统计 学 、 数 量 地 
理学 、 经 济 分 析 等 。 接 下 来 以 某 地 区 农业 生态 经 济 系统 各 区 域 单元 相关 指标 数据 为 案例 ， 在 R 软 
件 中 运用 主 成 分 分 析 方 法 ， 综 合 更 少 的 指标 信息 描述 该 地 区 农业 生态 经 济 的 发 展 状况 。 部 分 数据 
如 表 10.1 所 示 。 


表 10.1 菜农 业 生 态 经 济 系 统 各 区 域 单元 的 有 关 数 据 
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在 R 中 首先 读 取 文 本 文档 数据 ， 读 入 后 形成 数据 框 对 象 ， 可 以 直接 对 其 进行 主 成 分 分 析 。 注 
意 ， 通 过 参数 设置 我 们 可 以 选择 直接 使 用 相关 系数 矩阵 计算 主 成 分 ， 从 而 剔除 量 纲 对 方差 计算 的 
影响 ， 这 相当 于 将 数据 标准 化 ， 所 以 读 入 数据 后 不 需要 做 事先 的 标准 化 处 理 。 

>agri=read.table("d:/data/agriculture.txt",header=TRUE) 

>agri=agri[, -1] # 剔 除 第 一 列 序号 

> agri.pr=princomp (agriycor=TRUE) #Ccor=TRUE 表示 用 相关 阵 计算 

> options (digits=4)# 结 果 显 示 4 位 有 效 数字 

> summary(agri.pr,loadings=TRUE)#1loadings=TURE 选项 列 出 主 成 分 对 应 原始 变量 的 系数 


Importance of components: 

Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 Comp.7 
Standard deviation 2.1590 1.4455 130213 0.71234 0.56140 0.4389 0.33821 
Proportion of Variance 0.5179 0.2322 QL59 0.05638 0.03502 0.0214 0.01271 
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Cumulative Proportion 0.5179 0.7501 0.8660 0.92234 0.95736 0.9788 0.99147 
Comp.8 Comp.9 

Standard deviation 0.212900 0.177407 

Proportion of Variance 0.005036 0.003497 

Cumulative Proportion 0.996503 1.000000 


Loadings: 

Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 Comp.7 Comp.8 Comp.9 
xl1] 0.342 -0.368 -0.375 一 0.355 QO.312 0.559 0.113 0.233 
X2 0.614 O055. t=0.761 205L10 
x3 -0.44 0.206 0.467 =0:203 -0.692 
X4 0 .601 =-05598， ‘0.310 0393 Qs139 
x5 0.376 0.307 0.396 -0.508 0.580 
x6 ‘0:379 0.124 0'.122 0.620 0.154 0.638 
x7 0.432 -0.246 -0.148 -0.241 = 777 =03235 
x8 0.950 =0..5231 
x9 0.446 -0.224 -0.136 -0.246 0i:532 =0.613 


分 析 结 果 的 Standard deviation 表示 主 成 分 的 标准 差 ， 即 相应 特征 值 〈 等 于 方差 ) 的 平方 根 ; 
Proportion of Variance 表示 方差 贡献 率 ，Cumulative Proportion 表示 累计 方差 贡献 率 。 第 一 主 成 分 
FF 的 贡献 率 为 31.79%， 第 二 主 成 分 F, 的 贡献 率 为 23.22%， 第 三 主 成 分 FF; 的 贡献 率 为 11.59%， 
前 三 个 主 成 分 的 累计 方差 贡献 率 达 到 86.6%， 因 此 最 终 选 取 3 个 主 成 分 即 可 ， 其 余 6 个 舍 去 。 写 
出 主 成 分 与 原 变量 的 线性 关系 式 为 


F =0.342X, —0.368X, —0.375X, —0.355X, +0.312X, +0.599X, +0.113X, —0.233XX, 
F,=0.614X,+0.155X, -0.7618 —0.11X, 
F =-0.446X, +0.206X, +0.467X, —0.203XX, +0.692X, 


最 后 ， 根 据 主 成 分 与 原始 变量 之 间 的 线性 关系 ， 给 出 各 成 分 的 实际 解释 意义 。 


@ 第 一 主 成 分 Fl 是 多 个 变量 的 线性 组 合 ， 且 各 变量 的 系数 大 小 相当 ， 与 各、 和 %、 加 呈现 较 
强 的 正 相 关 ， 与 为、 各 、X、 加 呈现 较 强 的 负 相 关 ， 这 几 个 变量 综合 反映 了 生态 经 济 结构 状况 ， 
因此 我 们 认为 第 一 主 成 分 Fi 是 生态 经 济 结构 的 总 体 代 表 。 


@ 第 二 主 成 分 玉 与 入 ,再 正 相 关 , 与 熙 呈现 较 强 的 负 相 关 ， 叉 、 怠 、 世 分 别 为 人 均 耕 地 面 
积 、 人 均 纯 收入 和 人 均 粮 食 产 量 ,都 反映 了 人 均 占有 资源 的 情况 ， 因 此 认为 第 二 主 成 分 代表 了 
人 均 资源 量 。 


图 第 三 主 成 分 玉 与 总 (人均 耕地 面积 )、X (果园 与 林地 面积 之 比 ， 呈 现 较 强 的 负 相 关 ， 
与 锦 、 和 为、 为 呈正 相关 ， 这 三 个 变量 体现 的 是 土地 面积 的 使 用 效率 ， 因 此 认为 第 三 主 成 分 代表 的 
是 土地 使 用 情况 。 


显然 ， 用 三 个 主 成 分 FI、F,、F 代 替 原 来 9 个 变量 (和 HH， 有 为 ，...， 加 ) 来 描述 农业 生态 经 济 
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系统 ， 可 以 使 问题 更 进一步 简化 ， 对 解释 变量 的 概括 性 也 增强 了 。 


有 时 ， 主 成 分 分 析 也 辅 以 图 像 帮 助理 解 。 首先 ， 判断 主 成 分 个 数 时 可 以 绘制 主 成 分 的 碎 石 图 ， 
以 成 分 数 为 横 坐 标 ， 特 征 值 即 成 分 的 方差 为 纵 坐 标 ， 碎 石 图 由 陡峭 变 为 平坦 的 转折 点 即 为 主 成 分 
选择 的 最 佳 个 数 。 在 R 中 使 用 函数 screeplotO 绘 制 ， 调 用 格式 为 : 


screeplot (x, npcs = min(10, length (x$sdev)), type = c("barplot", "lines"), 
main = deparse (substitute(x)), ...) 


x 是 主 成 分 分 析 princompO 返 回 的 对 象 ， npcs 指定 画 出 主 成 分 的 个 数 ，tpye 是 碎 石 图 的 类 型 ， 
“barplot” 是 条 形 图 ,“lines” 是 线形 图 ; main 为 图 形 添加 主 标 题 。 


例如 ， 在 R 中 绘制 上 例 的 碎 石 图 〈 如 图 10.2 所 示 )。 


>screeplot (agri.pr,type="line"ymain=" 碎 石 图 ") 


碎 石 图 
© 

on c? 
: 
Rie o 
> 

We 

0—o 
© 一 一 o 一 c 一 o 


Comp.1 Comp.3 Comp.5 Comp.7 Comp.9 


图 10.2” 主 成 分 分 析 的 碎 石 图 


图 10.2 中 第 三 个 主 成 分 对 应 的 方差 由 陡峭 开始 变 得 平坦 , 说 明 后 几 个 主 成 分 的 方差 贡献 率 很 
低 ， 所 以 最 终 选 择 3 个 主 成 分 即 可 。 


另外 , 函数 biplot0 可 以 绘制 数据 关于 主 成 分 的 散 点 图 , 并 自动 标明 原 坐 标 在 主 成 分 下 的 方向 。 
其 调用 格式 为 biplot(x,choices=1:2)，x 同样 是 princomp() 返 回 的 对 象 ， 参 数 choices 选择 主 成 分 ， 
默认 为 前 两 个 。 


>biplot (agri .pr) 


绘制 结果 如 图 10.3 所 示 。 


主 成 分 分 析 在 市 场 分 析 方 面 也 有 很 强 的 应 用 价值 ， 例 如 为 了 研究 消费 者 的 偏好 ， 公 司 常常 会 
在 市 场 上 进行 一 系列 调查 ， 从 而 得 到 多 种 食品 的 消费 数据 。 为 了 建立 一 套 完整 的 指标 体系 ， 被 调 
查 的 食品 种 类 很 多 ， 这 时 就 需要 用 主 成 分 分 析 来 提炼 这 些 信息 ， 综 合 原始 变量 。 表 10.2 是 我 国 
2003 年 各 地 区 农村 居民 家 庭 平 均 每 人 主要 食品 消费 量 ， 我 们 将 利用 主 成 分 分 析 对 食品 进行 分 类 。 
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Comp.1 
图 10.3 主 成 分 的 散 点 图 
表 10.2 ”我国 各 地 区 农村 居民 家 庭 平 均 每 人 主要 食品 消费 量 


蔬菜 食油 ” 猪 牛 羊肉 家禽 ” 蛋 类 及 其 制品 ”水 产品 ” 食 糠 酒 


134.05 92.78 9.15 14.6 
150.2 69.99 10 11.07 
216.72 55.97 6.59 人 二 
218.91 80.87 5.72 5.36 
207.3 70.77 2.79 21.18 
194.39 178.59 5.9 16.45 
255.99 115.2 6.27 11.42 
195.08 区 7.62 7.85 
189.44 76.6 8.59 16.37 
251.98 109.12 8.27 12.05 
208.46 83.91 5.81 16.42 
228.35 80.97 6.87 9.07 
198.27 99.92 5.19 16.51 
264.8 144.22 8.77 13.24 
229.06 118.19 6.96 8.09 
236.97 100.11 4.22 6.48 
227.39 159.76 9.4 19.86 
247.21 149.44 8.35 17.51 
233.75 130.22 6.73 22229 
205.65 108.94 4.92 14.44 
236.31 86.61 $:7 15.4 
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主 成 分 分 析 可 以 应 用 于 多 个 领域 ，R 中 也 有 多 种 方法 进行 主 成 分 分 析 。 接 下 来 我 们 将 上 面 9 
类 食品 命名 为 变量 多 一 名， 利用 R 程序 包 labdsv 中 的 方法 pca0 进 行 主 成 分 分 析 ， 将 这 9 类 食品 
综合 成 4 个 主 成 分 。 


第 一 步 , 将 pca(mat, cor dim) 中 的 参数 cor 设 为 TRUE, 表示 利用 相关 系数 矩阵 作 主 成 分 分 析 ， 
即 相当 于 使 用 了 标准 化 数据 ， 因 此 无 需 再 做 事前 的 标准 化 ， 而 dim 表示 变量 综合 后 的 维 数 ， 即 生 
成 3 个 主 成 分 。 在 R 中 输入 指令 : 


> food=read.table ("d:/data/food.txt",header=T) # 读 入 数据 
> food=food[,—-1] 
> library (labdsv) 
Loading required package: mgcv 
This is mgcv 1.7-22. For overview type 'help("mgcv-package")'. 
Loading required package: MASS 
Attaching package: ‘labdsv’ 
The following object is masked from ‘package:stats’: 
density 
> food.pca=pca (food, dim=4,cor=TRUE) # 利 用 相关 系数 矩阵 计算 


第 二 步 ， 提 取 分 析 结 果 。 虽 然 函 数 pca0 是 一 个 简单 的 prcomp 功能 ， 但 使 用 起 来 非常 方便 ， 
我 们 可 以 根据 想 要 的 信息 提取 结果 。 使 用 summary0 函 数 提 取 主 成 分 分 析 返 回 的 对 象 ， 直 接 得 到 
衡量 成 分 重要 性 的 结果 : 4 个 主 成 分 的 标准 差 、 方 差 贡 献 以 及 累计 方差 贡献 率 。 在 本 例 中 ，4 个 
主 成 分 的 累计 方差 贡献 达到 80% 以 上 ， 可 以 认为 它们 很 好 地 综合 了 原始 变量 的 主要 信息 。 然 后 使 
用 函数 loadings.pca0 提 取 载 荷 系数 〈 也 可 以 用 loadingsO )。 


> summary (food.pca) 
Importance of components: 
[add [,2] [1,3] [,4] 


Standard deviation 1.7108133 1.4900949 1.1594286 0.89521303 
Proportion of Variance 0.3252091 0.2467092 0.1493638 0.08904515 
Cumulative Proportion 0.3252091 0.5719183 0.7212822 0.81032730 
> loadings.pca (food.pca) 
Loadings: 
PC1 PC2 PC3 PC4 
XI =0..550 -0.242 
X2 -0.320 -0.616 0.457 
X3 0.186 -0.697 -0.470 
X4 0.456 = ,168 0.305 
X5 0.509 -0'.1442 -0.263 
X6 =0.329 0.408 -0.270 
X7 0.501 0.119 -Tl2 -0.867 
X8 0.388 0..333 0.130 0:T13 
X9 0.141 0.493 0.201 


第 三 步 , 使 用 函数 varplotpca0) 绘 制 4 个 因子 的 碎 石 图 以 及 累计 方差 图 (如 图 10.4 所 示 )。 
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> op=par (mfrow=c (1,2)) # 分 割 图 形 区 域 


> varplot.pca (food.pca) 


Hit Return to Continue 
图 10.4 碎 石 图 以 及 累计 方差 图 


第 四 步 ， 根 据 问 题 的 分 析 背 景 ， 对 各 主 成 分 赋予 实际 含义 。 这 一 过 程 通 过 分 析 主 成 分 的 载荷 
系数 完成 ， 在 本 例 中 ， 第 一 主 成 分 对 XY 一 Xs 的 载荷 系数 较 大 ， 说 明 第 一 主 成 分 主要 反映 猪 牛 羊 
肉 、 家 禽 和 水 产品 等 方面 ， 可 以 归 为 肉 制品 类 ; 第 二 主 成 分 对 针 、 了 Xe、 了 Xo 的 载荷 系数 较 大 ， 分 
别 对 应 粮食 、 食 糠 和 酒 ， 归 为 粮食 类 ; 第 三 主 成 分 与 妈 、28 的 相关 性 较 高 ， 载 荷 系数 均 超 过 0.6， 
反映 蔬菜 、 食 油 类 ; 第 四 主 成 分 与 各 原始 变量 的 相关 性 分 配 比较 平均 ， 因 此 我 们 认为 第 四 主 成 分 
反映 的 是 所 有 食品 的 综合 情况 。 这 4 个 主 成 分 对 原始 变量 进行 了 概括 ， 根 据 主 成 分 分 析 的 结论 ， 
下 一 步 就 可 以 将 变量 分 类 ， 这 有 助 于 我 们 在 市 场 分 析 中 根据 调查 变量 建立 指标 体系 。 
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10:2 ”因子 分 析 


与 主 成 分 分 析 一 样 ， 因 子 分 析 也 是 一 种 “ 降 维 ” 的 统计 方法 。 它 们 的 出 发 点 都 是 变量 的 相关 
系数 矩阵 ， 在 损失 较 少 信息 的 前 担 下， 把 多 个 变量 综合 成 少数 几 个 指标 来 研究 总 体 各 方面 信息 ， 
并 且 这 少数 几 个 综合 变量 所 代表 的 信息 不 能 重 登 ， 即 变量 间 不 相关 。 

通常 ， 研 究 中 得 到 的 观察 数据 都 是 关于 事物 的 外 在 特征 或 个 别 的 具体 特征 ， 这 些 特征 的 观测 
值 存在 聚合 趋势 ， 有 些 变量 之 间 存 在 高 度 的 相关 性 ， 这 种 高 度 相 关 性 往往 来 源 于 一 个 共同 的 制约 
因素 ， 称 为 共同 因子 。 如 果 能 够 在 一 批 多 维 数据 资料 中 找到 m 个 因子 来 解释 变量 的 大 部 分 变异 ， 
就 是 所 谓 的 因子 分 析 。 简 单 地 说 ， 就 是 根据 相关 性 对 变量 分 组 ， 同 组 内 的 变量 之 间 相 关 性 较 高 ， 
不 同 组 间 的 相关 性 较 低 ， 最 终 用 少数 几 个 因子 描述 指标 或 因素 之 间 的 联系 。 


10.2.1 理论 模型 
设 开 = ( 忆 , 夺 X) 为 忆 个 可 观测 的 随机 变量 ， 因子 分 析 的 数学 模型 表示 为 
X=aFh tash t+tan, t,t+é, (ms p) 


写成 矩阵 形式 
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XI Ud 02 am |{ 五 a 

X, 421 4 Qn | Es 6 
= : 十 

X, dy! a, Za hs 6, 


简化 为 X= A4F +e， 其 中 五 ,三 ,…,, 为 公共 因子 ， 是 不 可 观测 的 变量 ， 它 们 的 系数 称 为 因 
子 载荷 ， 即 4 是 因子 载荷 矩阵 ，& 是 特殊 因子 ， 是 不 能 被 前 m 个 公共 因子 包含 的 部 分 。 通 常 满足 
以 下 假设 


E(F)=0, Var(F)=1, 
E(s)=0, Var(s)=D=diag(o;?,02,...,0?) 
Cov(F,e)=0 


公共 因子 之 间 互 不 相关 ， 方 差 为 1; 特殊 因子 之 间 也 互 不 相关 ， 但 方差 不 一 定 相等 ， 而 且 满 
足 &~N(0,07)。 


从 形式 上 看 ， 因 子 分 析 模 型 与 线性 回归 模型 相似 ， 但 它们 的 参数 意义 在 本 质 上 完全 不 同 : 回 
归 模 型 中 的 自 变量 是 可 观测 的 ， 但 因子 模型 中 的 公共 因子 是 不 可 观测 的 潜在 变量 。 
(1) 因子 载荷 ar 的 统计 意义 


根据 数学 模型 X= 2anF + 可 以 推导 
k=1 
Cov(X,,F,)= Cov(2 及 + 五) 
k=1 


= Cov(> ,axF,F,)+ Cov(e,,F,) 
k=] 


所 以 ， 因 子 载荷 a; 是 第 i 个 随机 变量 与 第 j 个 公共 因子 的 相关 系数 ， 其 绝对 值 越 大 ， 相 关 的 
密切 程度 越 高 。 

值得 注意 的 是 ， 因 子 载荷 不 是 唯一 的 。 若 工 是 任意 m 阶 正 交 阵 ， 则 蕊 可 以 表示 为 
了 =(4T)(T"F)+e，, 将 代 作 为 因子 载荷 ， T7F 作为 公共 因子 , 模型 仍然 成 立 , 仍 满足 上 述 假设 。 
这 种 因子 载荷 的 不 唯一 性 ， 给 予 我 们 更 多 的 选择 余地 ， 在 实际 使 用 中 反而 是 有 利 的 。 
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(2) 变量 共同 度 的 统计 意义 
变量 站 的 共同 度 是 因子 载荷 矩阵 的 第 ; 行 的 元 素 的 平方 和 , 记 为 有 =Y0 ， 它 反映 了 公共 
因子 对 XY, 的 方差 贡献 。 了 


Var(X,)= aiVar(F)+:.+asVar(F,)+Var(e,), BT1l= > ,ay +o7 
i=1 


所 有 的 公共 因子 和 特殊 因子 对 变量 万 的 贡献 为 1。 如 果 立 非常 靠近 1 且 a2 非常 小 ， 则 
说 明 分 析 的 效果 好 ， 从 原 变量 空间 到 公共 因子 空间 的 转化 性 质 好 。 

(3) 公共 因子 方差 贡献 的 统计 意义 

因子 载荷 矩阵 中 各 列 元 素 的 平方 和 8 ? -Ya 称 为 所 有 公共 因子 已 对 总 的 方差 贡献 和 ， 其 
是 衡量 已 相对 重要 性 的 一 个 尺度 ， 可 视 为 公共 因子 已 对 所 ,所 ， -无 的 总 方 关 贡 献 


10.2.2 ”因子 载荷 矩阵 的 估计 方法 


提取 因子 的 方法 有 多 种 ， 常 用 的 是 主 成 分 分 析 、 主 因子 分 析 、 和 迭代 主因 子 分 析 和 极 大 似 然 分 
析 等 。 


其 中 比较 特殊 的 方法 是 主 成 分 分 析 法 ， 它 是 用 相关 和 矩阵 R 取代 约 相关 矩阵 R*， 即 令 所 有 变 
量 的 公 因子 方差 为 1， 只 要 相关 矩阵 中 无 缺失 数据 ， 此 方法 总 是 可 以 进行 下 去 的 ， 而 其 他 方法 则 
与 预先 给 定 的 公 因 子 方差 初 值 、 样 品 含量 、 提 取 公 因子 的 数目 等 因素 有 关 ， 有 时 会 出 现 负 特征 值 ， 
某 些 变量 最 后 的 共性 方差 大 于 1 等 现象 。 


在 实际 应 用 中 ， 儿 种 方法 也 各 有 不 同 。 主 成 分 分 析 法 给 每 个 变量 的 公 因 子 方差 均 赋予 初 值 1， 
这 等 价 于 假定 特殊 因子 的 作用 为 0， 显 然 其 结果 是 比较 粗略 的 ， 但 优点 是 计算 总 能 顺利 地 进行 下 
去 。 所 以 ， 当 样本 量 适 中 并 且 对 分 析 结果 的 精度 没有 太 过 细致 的 要 求 时 ,一 般 选 用 主 成 分 法 即 可 ， 
便于 编程 语言 的 实现 。 而 主因 子 分 析 和 最 大 似 然 法 都 能 结合 各 变量 的 特点 给 它们 的 共性 方差 赋 初 
值 ， 如 果 初 值 以 及 其 他 因素 都 调整 得 比较 好 ， 就 可 以 得 到 较 好 的 结果 ， 但 缺点 是 这 种 调整 比较 困 
难 。 实 际 中 ， 对 于 大 样本 资料 ， 由 于 最 大 似 然 法 具有 渐 近 性 ， 往 往 能 够 给 出 比 主因 子 法 更 好 的 估 
计 效 果 。 

鉴于 主 成 分 分 析 法 的 特殊 性 ， 这 里 我 们 简单 介绍 它 的 数学 推导 过 程 。 


设 随机 向 量 卫 = (多 , 针 ,,…, 耶 ,】 的 样本 协 方差 阵 为 2， 力 > 刀 >…> 如 >0 为 三 的 特征 根 ， 
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U =(W,W，…,U,) 为 对 应 的 标准 化 特征 向 量 ， 则 有 


4 wr 
>-ol “ UT = | 
二 本 = (mW, ,sd, ) 
4 和 zz 


= XW + hu tt hu + hd 


NE 
=(Vaa Jao : " ss) | 
oe 


上 式 给 出 的 表达 式 是 精确 的 ， 但 我 们 的 目的 是 寻求 用 少数 几 个 公共 因子 解释 ， 当 后 面 p-m 
个 特征 根 足 够 小 时 ， 可 以 略 去 后 面 的 p-m 项 的 贡献 ，z 近似 分 解 为 


=Auu +hwu ++huu +D= A4' +D, 


m+l 


2 
+ + A uu, 


在 因子 分 析 的 数学 模型 中 ， 特 殊 因子 反映 的 是 随机 影响 ，&, ~ N(0,o，) ， 假 定 从 一 的 分 解 
中 忽略 特殊 因子 的 方差 。 我 们 可 以 推导 协 方差 矩阵 
X=AF+e 
Var(X)=Y= A:Var(F):A’ +D(ée) 
=44 +diag(o; ,02;,……,0;) 


从 而 可 以 得 到 因子 载荷 矩阵 4 的 估计 值 


a 
Dedias( 002. 62) 
了 =s,— Yo? 

/j=l 


与 主 成 分 分 析 类 似 的 一 点 是 , 估计 出 因子 载荷 矩阵 后 , 我 们 必须 对 得 到 的 公共 因子 进行 解释 ， 
结合 案例 背景 知识 说 明 其 实际 含义 。 但 因子 的 参数 估计 方法 带 有 随意 性 ， 有 时 得 到 的 公共 因子 很 
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难 与 实际 问题 相对 应 ， 这 就 需要 通过 一 个 正 交 甜 阵 工 作 公 共 因 子 旋转 ， 使 旋转 后 的 因子 T7 玉 有 
明确 的 实际 含义 。 公 共 因 子 旋转 的 方法 也 有 多 个 ， 如 最 大 方差 旋转 、 四 次 方 最 大 旋转 、 等 量 最 大 
法 等 。 其 中 以 方差 最 大 化 法 最 为 常用 ， 方 差 最 大 正 交 旋转 以 “使 因子 载荷 矩阵 中 ， 各 因子 载荷 值 
的 总 方差 达到 最 大 ”作为 因子 载荷 矩阵 结构 简化 的 准则 ， 并 且 保 持原 公共 因子 的 正 交 性 和 公共 方 
差 总 和 不 变 。 实 际 应 用 中 的 最 终结 果 是 使 得 每 个 因子 上 的 具有 最 大 载荷 的 变量 数 最 少 ， 从 而 简化 
对 因子 的 解释 。 


10.2.3 ”R 语言 实现 


R 中 自 带 的 因子 分 析 函 数 factanal0 采 用 极 大 似 然 估计 方法 估计 因子 载荷 ， 适 用 于 大 样本 量 的 
数据 分 析 ， 其 调用 格式 为 

factanal (x, factors, data = NULL, covmat = NULL, n.obs = NA, subset, na.action, start = NULL, 

scores = c("none", "regression", "Bartlett"), rotation = "varimax", control = NULL, ...) 

x 是 公式 或 用 于 因子 分 析 的 数据 ， 可 以 是 矩阵 〈 每 行为 一 个 样本 ) 或 数据 框 ，factors 表示 要 
生成 的 因子 个 数 ; data 指定 数据 集 ， 当 x 为 公式 形式 时 使 用 ，covmat 是 样本 的 协 方差 矩阵 或 相关 
系数 矩阵 ， 使 用 这 个 参数 时 x 可 以 忽略 ; scores 表示 计算 因子 得 分 的 方法 ; rotation 表示 因子 旋转 
方法 ， 默 认为 “varimax” 方差 最 大 旋转 。 


实际 上 ， 应 用 主 成 分 法 估计 因子 载荷 的 方法 也 使 用 得 十 分 广泛 , 但 R 中 仅 有 极 大 似 然 估计 的 
函数 包 ctanal0， 因 此 我 们 可 以 仿照 factanal(0) 的 输出 结果 ， 自 己 写 出 主 成 分 法 的 因子 分 析 函 数 


factor.analysis()。 





factor.analysis=function (x,m){ 
p=nrow (x) ;x.diag=diag (x) ;sum.rank=sum (x.diag) 
rowname=paste ("X",1:p, sep="") # 设 置 行 名 、 列 名 
colname=paste ("Factor",1:m,sep="") 
# 构 造 因子 载荷 矩阵 A， 初 值 设 为 0 
A=matrix(0,nrow=p, ncol=m, dimames=l1ist (rowname, colname)) 
eig=eigen (x) #eig 包含 两 个 元 素 , values 为 特征 根 ，vectors 为 特征 向 量 
for(i in 1:m) 
A[,i]=sqrt (eig$values[i])*eig$vectors[,i] # 填 充 和 给 阵 和 的 值 
var.A=diag (A%*%t (A) ) # 公 共 因 子 的 方差 
rownamel=c ("SS loadings","ProportionVar", "Cumulative Var") 
# 构 造 输出 结果 的 矩阵 ， 初 值 设 为 0 
result=matrix(0,nrow=3,ncol=m, dimnames=list (rownamel,colname)) 
for(L En Lm)1{ 
result [1,i]=sum(A[,i]^2) # 计 算 各 因子 的 方差 ( 对 变量 的 贡献 ) 
result [2,i]=result[1,i]/sum.rank # 计 算 方 差 贡献 率 
result [3,i]=sum(result [1,1:i])/sum.rank # 累 计 方 差 贡 献 率 
} 
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method=c ("Principal Component Method") 
# 输 出 计算 结果 


list (method=method, loadings=A,vVvar=cbind (common=var.A, specific=x.diag-var.A),resul 
t=result) 


} 


函数 的 输入 参数 x 是 用 于 因子 分 析 的 样本 方差 矩阵 或 相关 系数 矩阵 ; m 表示 因子 个 数 。 函 数 
输出 一 个 列表 ， 包 括 主 成 分 法 计算 得 到 的 因子 载荷 、 公 共 因 子 方差 和 特殊 因子 方差 ， 以 及 因子 的 
方差 、 贡 献 率 和 累计 方差 贡献 率 等 。 


因子 分 析 有 很 强 的 实际 应 用 价值 ， 在 “满意 度 ”” “幸福 感 ” 等 统计 调查 研究 中 ， 它 可 以 有 效 
地 分 析 调 查 问卷 数据 ， 得 到 综合 性 结论 ， 而 在 企业 绩效 评估 中 ， 因 子 分 析 也 是 有 效 的 统计 方法 。 


我 们 以 国内 的 十 家 股份 制 商 业 银 行为 研究 对 象 ， 选 取 11 个 指标 来 研究 它们 的 经 营 绩效 ， 这 
些 实际 数据 来 源 于 《中 国 金融 统计 年 鉴 》。11 个 财务 指标 分 别 为 : 一 一 流动 比率 ; 及 一 一 负债 
资产 率 ;， 为 一 一 不 良 贷款 率 ; 名 一 一 贷款 呆账 准备 率 ; 一 一 资产 利润 率 ; 襄 一 一 资金 周转 率 ; 
加 一 -投资 收益 率 ; 舱 一 一 营业 收入 费用 率 ; 加 一 一 营业 收入 增长 率 ; Xo 一 一 营业 支出 增长 率 ; 
了 一 一 利润 增长 率 。 数 据 存储 于 文本 文档 bank.txt 中 ， 部 门 数据 如 表 10.3 所 示 。 


表 10.3 各 商业 银行 财务 指标 
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使 用 我 们 自己 编写 的 函数 factor.analysis()， 通 过 主 成 分 法 计算 因子 载荷 ， 将 上 述 的 11 个 指标 
综合 成 5 个 因子 ， 来 概括 反映 银行 经 营 绩效 的 指标 体系 。 注 意 这 里 的 输入 参数 是 数据 的 相关 系数 
和 矩阵， 所 以 要 先 用 函数 cor0 计 算 。 

>bank=read.table("d:/data/bank.txt",header=T) 

>bank=bank[,-1] 

> R=cor (bank) # 计 算 相 关系 数 矩 阵 

> options (digits=3) # 结 果 显 示 3 位 有 效 数字 

>factor.analysis (R,5) 

Smethod 

[1] " Principal Component Method" 


$loadings 

Factorl Factor2 Factor3 Factor4 Factor5 
X1 0.394 0.2431 -0.2041 0.76100 0.3940 
X2 -0.209 -0.1280 0.8928 0.12540 -0.2654 


X3 0.804 0.1743 0.4772 0.20028 -0.0819 


$var 


0:877 
0.594 
0.309 
O911 
0.200 
0.856 
0.764 
0.644 


0.1978 
0Q.2171 
0.8681 
-0.0434 
-0.8106 
-0.4227 
0.5250 
0.2050 


common Specific 


Xl 0.990 0;00991 
X2 0.943 0.05685 
X3 0.951 0.04908 
X4 0.984 0.01646 
X5 0.892 0.10807 
X6 0.979 0.02104 
X7 0.888 0.11206 
X88 .0.979 0.02116 
X9 0.937 0.06299 
X10 0.964 0.03564 
Xil 0.893 0.10739 
$result 
Factorl 

SS loadings 4.663 


Proportion Var0.424 


Cumulative Var 0.424 0.615 


2821 =0s 
= 
.2126 0. 
= 
“252 “0 
sO227 =0s 
“hs 
S93 


0425 0. 


1026 =0。 


9233! 0. 
5499 -0。 


23663 
30028 
00168 
21233 
52455 
14650 
24916 
00226 


2.101 1.508 
0.191 O37 
0.752 


=Q 


.1982 
一 区 。 
.2912 
= 
-0766 
.0640 
.2040 
=0% 


6327 


0258 


3653 


1.189 
0.108 
0.860 
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Factor2 Factor3 Factor4 Factor5 
0.9424 
0.0857 
0.9454 


根据 loadings 的 输出 结果 ， 我 们 可 以 写 出 原始 变量 和 5 个 因子 之 间 的 线性 关系 式 ， 例 如 已 
可 以 表示 为 


X=0.394F +0.2431F, —0.2041F, +0.761F, +0.394F, 


结合 原始 变量 的 实际 含义 和 会 计 学 原理 来 分 析 因 子 载荷 矩阵 ， 我 们 可 以 概括 银行 绩效 的 指标 
体系 ， 将 11 个 变量 总 结 为 5 个 方面 。 


因子 所 与 名 (不 良 贷 款 率 )、X%〈 贷 款 采 账 准备 率 )、 态 《投资 收益 率 ) 和 为 (营业 收入 
增长 率 ) 的 载荷 系数 均 大 于 0.8， 呈 高 度 正 相 关 ， 因 此 因子 Fi 反映 的 是 银行 的 成 长 能 

因子 有 在 和 (资金 周转 率 ) 和 和 (营业 收入 费用 率 ) 上 的 载荷 较 高 ， 说 明 已 反映 了 银 
行 的 经 营 效 率 ; 
因子 户 在 及 (负债 资产 率 ) 和 XX! (利润 增长 率 ) 上 的 载荷 很 高 ， 说 明 它 反映 了 银行 的 


僵 利 水 平 ; 


因子 所 与 和 (流动 比率 ) 高 度 相 关 ， 因 此 反映 的 是 银行 的 流动 性 和 短期 偿 债 能 力 ， 因 
子 Fs 主要 反映 资金 的 使 用 情况 。 
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Cumulative Var 反映 了 因子 的 累计 方差 贡献 率 ， 这 5 个 因子 的 累计 贡献 率 达 到 94.54%， 说 明 
我 们 选取 的 5 个 因子 已 经 包含 了 总 体 的 大 部 分 信息 ， 可 以 较 好 地 概括 整个 指标 体系 。 


上 例 中 包含 10 个 样本 、11 个 观测 变量 ， 使 用 主 成 分 法 是 最 佳 方案 。 若 使 用 R 自 带 的 函数 
人 ctanal0， 即 采用 极 大 似 然 估计 载荷 算 阵 ， 由 于 数值 运算 的 原因 ， 相 关系 数 矩 阵 的 行列 式 值 很 小 ， 
R 认为 它 是 一 个 不 可 道 的 矩阵 ， 因 此 计算 将 无 法 继续 。 但 当 数 据 量 较 大 时 ， 函 数 factanal0 是 很 好 
的 选择 ， 计 算 结 果 也 会 更 加 精确 。 下 面 我 们 举 一 个 市 场 营销 的 案例 来 说 明 用 factanal0 作 因子 分 析 
的 步骤 。 


因子 分 析 揭 示 变 量 之 间 的 内 在 关联 性 ， 简 化 数据 维 数 ， 在 市 场 营销 领域 应 用 广泛 。 营 销 研究 
结合 市 场 问卷 调查 和 因子 分 析 的 方法 ， 可 能 涉及 大 量变 量 ， 其 中 大 部 分 变量 是 相关 的 ， 因 此 需要 
将 变量 的 数目 缩减 到 合适 的 水 平 ， 以 便 进一步 分 析 。 最 终 目的 是 了 解 消费 者 的 市 场 需求 动态 ， 分 
析 产 品 的 综合 竞争 力 ， 为 经 营 管理 决策 提供 可 靠 的 理论 依据 。 


某 公司 想 要 了 解 消费 者 购买 牙膏 时 更 追求 什么 样 的 目标 ， 于 是 通过 商场 拦 访 对 30 个 人 进行 访 
用 7 级 里 克 特 量 表 询问 他 们 对 以 下 陈述 的 认同 程度 〔 即 1 表示 非常 不 同意 ，7 表示 非常 同意 )。 
V: 购买 预防 星 牙 的 牙膏 是 重要 的 ; 

:我 喜欢 使 牙齿 亮 泽 的 牙 育 ; 

万 : 牙膏 应 当 保护 牙 郁 ; 

V4 我 喜欢 使 口气 清新 的 牙膏: 

访 : 预防 坏 牙 不 是 牙膏 提供 的 一 项 重要 功效 ; 

Vs: 购买 牙膏 时 最 重要 的 考虑 是 富有 魅力 的 牙齿 ; 


将 调查 样本 存储 于 文本 文档 yagao.txt 中 ， 数 据 示 例 为 。 


indexV1 V2 V3 V4 V5 V6 


谈 


i 和 坟 者 站 2 汉 
2 | Le! 5 “水 
3 6 2 7 4 1 | 
0 纺 wi 次 
cr | | 万 现 方 浊 6 活 委 


为 了 在 R 中 对 数据 作 因子 分 析 ， 综 合 原始 变量 信息 ， 首 先 需 要 读 入 原始 数据 。 


> yg=read.table("d:/data/yagao.txt",header=T) 
> data=yg[,-1] 


第 二 步 ， 直 接 使 用 函数 乌 ctanal0。 用 R 作 主 成 分 分 析 的 步骤 非常 简单 ， 只 需要 简短 的 一 个 命 
令 就 可 以 直接 输出 我 们 想 要 的 结果 。 这 里 唯一 需要 确定 的 是 factors 的 参数 值 ， 即 提取 的 因子 数 ， 
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本 例 中 有 6 个 变量 ， 假 设 提取 因子 数 为 2， 观察 因子 分 析 的 累计 方差 贡献 率 。 
> factanal (Gata factors=2) 


all: 
factanal (x = data, factors = 2) 


Uniquenesses: 
V1 V2 V3 V4 V5 V6 
0.104 0.440 0.141 0.384 0.238 0.294 


Loadings: 

Factorl Factor2 
Vi 0.945 
V2 0.747 
Va QL7 =0s135 
V4 0.779 
V5 -0.868 
V6 0.838 


Factorl Factor2 
SS loadings 2.505 1.896 
Proportion Var 0.417 0.316 
Cumulative Var 0.417 Qs733 


Test of the hypothesis that 2 factors are sufficient. 

The chi square statistic is 4.86 on 4 degrees of freedom. 

The p-value is 0.302 

第 三 步 ， 确 定 因子 个 数 。 当 提取 因子 数 为 2 时 ， 模 型 的 累计 方差 贡献 率 为 0.733， 通 常 我 们 
要 求 累计 方差 贡献 率 达 到 80% 以 上 , 但 本 例 中 原始 变量 个 数 较 少 (6 个 )， 用 少数 几 个 因子 很 难 提 
取出 大 量 的 原始 信息 ， 因 此 70% 以 上 的 贡献 率 也 可 以 接受 。 而 且 ， 因 子 载荷 系数 对 应 的 变量 关系 
区 分 明显 ， 所 以 我 们 将 因子 个 数 确 定 为 2。 但 是 若 累计 贡献 率 很 低 ， 就 需要 增加 factors 的 参数 值 ， 
重新 作 因 子 分 析 ， 直 至 得 到 满意 的 贡献 率 为 止 。 


第 四 步 ， 根 据 载荷 系数 和 矩阵， 写 出 2 个 因子 和 原 变 量 之 间 的 线性 关系 式 
F =0.945V +0.917V, —0.868V. 
F,=0.747V, —0.135V, +0.779V, + 0.838V. 
第 五 步 ， 因 子 的 实际 解释 意义 。 因 子 1 和 变量 办、 肪 、Vs 有 很 强 的 相关 性 ， 载 荷 系数 分 别 为 
0.945、0.917 和 -0.868， 分 别 表 示 “ 预 防 蛙 牙 ”“ 保 护 牙 眼 ” 和 “预防 坏 牙 ”， 因 此 该 因子 可 命名 


为 保健 利益 因子 。 因 子 2 和 变量 成、 成 、WV6 高 度 相 关 ， 载 荷 系数 分 别 为 0.747、0.779 和 0.838， 
分 别 表 示 “ 牙 具 亮 泽 ” “口气 清新 ”和 “富有 魅力 ” 因此 该 因子 可 命名 为 社交 利益 因子 。 


第 六 步 ， 得 出 结论 ， 消 费 者 想 从 牙膏 中 得 到 的 利益 有 两 大 类 ， 分 别 为 保健 利益 和 社交 利益 。 


*]] 。 


典型 相关 分 析 和 对 应 分 析 


上 一 章 我 们 介绍 了 多 元 统计 分 析 的 两 种 方法 一 一 主 成 分 分 析 和 因子 分 析 ， 本 章 将 继续 讲述 多 
元 统计 的 内 容 ， 结 合 R 软件 在 多 个 对 象 和 多 个 指标 互相 关联 的 情况 下 寻找 它们 的 统计 规律 。 

典型 相关 分 析 研 究 两 组 变量 之 间 的 相关 问题 ， 采 用 主 成 分 的 思想 浓缩 信息 ， 根 据 变量 间 的 相 
关 性 ， 将 两 组 变量 的 关系 集中 到 少数 几 对 综合 变量 (观测 变量 的 线性 组 合 ) 上 。 

对 应 分 析 探 究 行列 变量 的 关系 ， 它 是 一 种 比较 特殊 的 多 元 统计 分 析 ， 与 我 们 前 面 介绍 的 几 种 
方法 有 所 不 同 。 对 应 分 析 通 过 由 定性 变量 构成 的 交互 汇总 表 来 揭示 变量 之 间 的 联系 ， 最 大 的 特点 
是 能 把 众多 的 样品 和 变量 同时 绘制 在 同一 张 图 上 。 


接 下 来 ， 我 们 学 习 如 何 用 R 软件 实现 这 两 种 多 元 统计 方法 。 


11.1 典型 相关 分 析 


相关 关系 一 直 是 统计 学 的 热门 话题 ， 最 初 研究 的 是 两 个 随机 变量 之 间 的 线性 相关 关系 ， 用 简 
单 相 关系 数 来 衡量 ; 之 后 , 统计 学 家 们 发 现 了 复 相关 系数 , 研究 一 个 变量 与 多 个 变量 之 间 的 关系 。 
直到 1936 年 ， Hotelling 提出 了 研究 多 个 变量 与 多 个 变量 之 间 相 关 关 系 的 统计 方法 ， 称 为 典型 相 
关 分 析 ， 也 是 一 种 “ 降 维 ” 技 术 。 


典型 相关 可 以 用 于 分 析 很 多 实际 问题 。 例 如 : 金融 领域 ， 研 究 宏观 经 济 走 势 与 股票 市 场 走势 
之 间 的 关系 ; 市 场 分 析 方 面 ， 研 究 食品 价格 与 销售 量 之 间 的 相关 性 ; 工业 方面 ， 考 察 原料 指标 与 
产品 质量 之 间 的 相关 性 ， 等 等 。 


11.1.1 理论 基础 
典型 相关 分 析 是 分 析 两 组 随机 变量 间 线 性 密切 程度 的 统计 方法 ， 是 两 变量 间 线 性 相关 分 析 的 
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推广 。 其 采用 主 成 分 的 思想 提炼 信息 ， 根 据 变量 间 的 相关 关系 ， 寻 找 少数 几 对 综合 变量 ( 原 变 量 
的 线性 组 合 ) 来 替代 原始 观测 变量 ， 从 而 将 两 组 变量 的 相关 关系 集中 到 少数 几 对 综合 变量 的 相关 
性 分 析 上 。 
典型 相关 分 析 除 要 求 所 提取 的 综合 变量 尽 可 能 全 面 地 包含 原始 信息 外 ， 提 取 时 还 要 求 第 一 对 
综合 变量 间 的 相关 性 最 大 ， 第 二 对 次 之 ， 依 次 类 推 。 各 组 随机 变量 中 既 可 以 包含 定量 变量 ， 也 可 
以 包含 定性 变量 。 
(1) 典型 相关 系数 与 典型 相关 变量 
设 全 =(XX,%，…, 卫 ,) ,了 =(7, 驴 ,…,) 是 两 个 随机 向 量 ， 利 用 主 成 分 思想 寻找 第 i 对 典型 
相关 变量 (U,V): 
U,=a Xl +aX,+.…+a,X,=aX 
V = bY +b,Y, tb =b'Y 
i=1,2 ,7 m= min(p,9g) 
其 中 ，4ai,b; 称 为 第 对 典型 变量 系数 或 典型 载荷 。 
记 第 一 对 典型 相关 变量 间 的 典型 相关 系数 为 : CanR, = Co7(C, 广 ) (使 马 与 瑟 间 最 大 相关 ); 
第 二 对 典型 变量 间 的 典型 相关 系数 为 :CanR, = Com(C2 户 ) (与 员 、 风 无关 ; 使 到 与 矿 间 最 
大 相关 ); 第 m 对 典型 变量 间 的 典型 相关 系数 为 : CanR, = Corr(U,,V,) (与 Ui, WV, Us, Vy,..., Uy 
i 无 关 ; Ui 与 1 间 最 大 相关 )。 
(2) 典型 相关 变量 性 质 
各 对 典型 相关 变量 所 包括 的 相关 信息 互 不 交叉 ， 且 满足 : 
@ 01,0,,…,U 互 不 相关 ， 太 ,万 、…, 太 ,也 互 不 相关 ， 即 其 相关 系数 为 
oy i 
CorrUsU)=4 7 7， Cor(V,V)=4 7 7 
z 0,iz¥j 4 0,izj 
@ 同一 对 典型 相关 变量 U; 和 矿 之 间 的 相关 系数 为 CanR;， 是 除去 前 面 i-1 个 CanR 之 外 的 最 
大 者 ; 不 同 对 的 典型 相关 变量 之 间 互 不 相关 ， 即 
CanR, i=j 
comtar) -| re 
0 tr 
图 U; 和 万 的 均值 为 0， 方差 为 1 (i=1,2,.…,m)。 
由 1>CamnR > Ca1R >...>CanR, >0。 
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(3) 典型 相关 系数 的 求解 步骤 


在 主 成 分 分 析 中 我 们 曾 提 到 ， 为 了 去 除 量 纲 对 方差 的 影响 ， 应 该 在 分 析 中 对 数据 进行 正 态 离 
差 标准 化 。 因 此 ， 我 们 在 求解 时 应 使 用 相关 系数 矩阵 代替 协 方差 阵 ， 具 体 的 计算 步骤 为 : 


中 求 忒 了 变量 组 的 相关 系数 和 矩阵， 其 中 ，Ria=R2， 表 示 开 和 了 之 间 的 相关 系数 矩阵 。 


Re | 
BR, R,, 


@ 可 以 证 明和 矩阵 4= (Ri RCR "Ry 和 B=(Rs)"' Ri(R1)'Rs 有 相同 的 非 零 特征 根 ， 计 
算 4 或 下 的 特征 根 履 。 


@@ 4 或 B 的 特征 根 即 为 典型 相关 系数 的 平方 : 4=(CanR),i=1,2,…,m ,根据 这 一 关系 式 ， 
计算 典型 相关 系数 CanR;。 

@ 求 4、8 关 于 多 的 特征 向 量 。 设 a; 为 4 关于 罗 的 特征 向 量 ，b, 为 B 关 于 九 的 特征 向 量 ， 
则 ,Bb (i=1,2,…,m) 为 第 i 对 典型 载荷 。 从 而 可 以 写 出 第 i 对 典型 相关 变量 (U;, 亿 ) ， 形 式 即 原 
始 变量 的 线性 组 合 。 

U, =aX” =a Xi + a X, a 
V=bY =bY +b +*…+bY 
i=1,2,…,m m= min(p,g) 


其 中 ，X",Y' 为 原 变量 组 的 正 态 离 差 标准 化 ， 即 X" = 一 一。 


11.1.2 ”典型 相关 分 析 的 应 用 
为 了 更 好 地 应 用 典型 相关 方法 做 实际 分 析 ， 我 们 首先 要 弄 清楚 几 个 基础 问题 : 
@ 严格 地 说 ， 一 个 典型 相关 系数 描述 的 只 是 一 对 典型 变量 (Ui, 玉 ) 之 间 的 相关 ， 而 不 是 两 个 


变量 组 之 间 的 相关 ， 各 对 典型 变量 之 间 构 成 的 多 维 典 型 相关 才能 共同 揭示 两 个 观测 变量 组 之 间 的 
相关 形式 。 


@ 典型 相关 模型 的 基本 假设 和 数据 要 求 : 


首先 ， 要 求 两 组 变量 之 间 为 线性 关系 ， 从 而 每 对 典型 变量 之 间 也 为 线性 关系 ， 这 是 很 多 统计 
分 析 方 法 都 涉及 的 隐 性 假设 ， 因 为 相关 系数 衡量 的 是 线性 相关 。 

其 次 ， 每 个 典型 变量 与 本 组 所 有 观测 变量 的 关系 也 是 线性 关系 。 如 果 不 是 ， 可 先 线性 化 。 例 
如 经 济 水 平和 收入 水 平 与 其 他 一 些 反映 社会 发 展 水 平 的 指标 之 间 是 乘法 关系 而 非 线 性 关系 ， 就 可 
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以 先 取 对 数 〈(log)， 再 做 典型 相关 分 析 。 


@ 所 有 观测 变量 均 以 数值 形式 进入 模型 。 处 理 定性 数据 时 ， 可 按照 一 定形 式 设 为 虚拟 变量 
后 ， 再 放 入 典型 相关 模型 中 进行 分 析 。 

典型 相关 可 以 用 于 分 析 很 多 实际 问题 。 在 金融 领域 ， 利 用 它 可 以 研究 宏观 经 济 走 势 与 股票 市 
场 走势 之 间 的 关系 ; 在 市 场 分 析 方 面 ， 利 用 它 可 以 研究 食品 价格 与 销售 量 之 间 的 关系 ;在 工业 方 
面 ， 利 用 它 可 以 考察 原料 指标 与 产品 质量 之 间 的 相关 性 ; 在 教育 学 中 ， 利 用 它 可 以 考察 学 生 的 高 
考 成 绩 与 高 三 阶段 主 科 成 绩 之 间 的 相关 性 等 。 


11.1.3”R 语言 实现 
R 中 进行 典型 相关 分 析 的 函数 为 cancorD)， 其 调用 格式 为 


Cancor (x, y, xcenter = TRUE, ycenter = TRUE) 

其 中 x 和 y 分 别 是 两 组 变量 的 数据 矩阵 xcenter 和 ycenter 是 逻辑 值 ， 表 示 是 否 将 数据 中 心 
化 ， 实 际 使 用 中 一 般 均 采用 默认 值 TRUE， 即 将 数据 中 心 化 后 再 进行 计算 。 

下 面 介绍 一 个 行业 分 析 的 实例 。 随 着 电子 信息 技术 的 发 展 ， 以 电话 和 快递 等 为 代表 的 邮电 业 
在 近 几 十 年 来 得 到 爆发 性 的 发 展 ， 越 来 越 多 的 人 选择 网 上 或 电话 购物 ， 以 快递 的 形式 发 送 或 接收 
货物 。 邮 电 业 的 发 展 与 第 三 产业 的 发 展 密 不 可 分 ， 必 须 适 应 我 国 当前 的 经 济 结构 。 为 了 找 出 邮电 
业 和 经 济 发 展 的 深层 次 关系 ， 我 们 就 可 以 使 用 典型 相关 分 析 来 解决 这 一 问题 。 

根据 来 自 《 中 国 统计 年 鉴 》 的 1995-2007 年 我 国 国 民 经 济 数据 ， 利 用 R 软件 来 做 邮电 业 和 国 
民 经 济 之 间 的 典型 相关 分 析 , 我 们 将 采用 如 表 11.1 所 示 指 标 来 衡量 邮电 业 发 展 情况 和 经 济 发 展 情 
况 。 


表 11.1 数据 指标 


具体 数据 汇总 如 表 11.2 所 示 。 
表 11.2 邮电 业 与 经 济 发 展 指标 数据 


I Ix lx [x Ix |” 
es | 79355 [55077 [625 [a0706 | i21358 [249506 | 57588 |195785 | 














i996 |7868 |70966 |6s53 |541947 [i40154 |[294476 [43874 |233262 | 
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ET TE RT ER I Te 





og eos [9093 | 4256 | 007rs | 1700 [ssors | sr | 358754 
ao00 7m | oss a533 | e529 | a507 [a0036 | 5723 [357140 
oo wa | i979 0824 | 316 |210127 [65100 | 043 [or56r3 


在 R 中 进行 典型 相关 分 析 的 步 又 是 : 


Q 读 入 原始 数据 ; 

@ 对 数据 进行 标准 化 处 理 ; 

@ 使 用 函数 cancor0 做 典型 相关 分 析 ; 

@ 得 出 分 析 结 果 ， 对 结果 进行 描述 整理 ; 

@@ 对 结果 进行 实际 含义 解释 ， 得 出 结论 。 

R 提供 了 执行 数据 中 心 化 和 标准 化 的 函数 scale()， 其 调用 格式 为 : 


scale (x, center = TRUE, scale = TRUE) 


x 是 和 矩阵， 提供 数据 ; 若 center 为 数字 或 是 与 x 等 长 的 向 量 ， 那 么 中 心 化 时 用 x 减 去 center 
对 应 的 数值 ， 若 center=TRUE 则 减 去 x 的 平均 值 ， 此 即 默认 设置 ; 若 scale 为 数字 或 是 与 x 等 长 
的 向 量 ， 则 标准 化 时 用 x 除 以 scale 每 个 值 ， 默 认 情况 下 scale=TRUE， 即 x 除 以 标准 差 进行 中 心 
化 。 通 常 选择 默认 的 参数 设置 即 可 。 


去 除 原始 数据 的 第 一 列 〈 年 份 ) 后 ， 第 1 一 4 列 是 第 一 组 变量 、 第 5 一 8 列 是 第 二 组 变量 。 在 
R 中 输入 指令 : 
post=read.table("d:/data/post.txt",header=T) 
post=post[, -1] # 去 除 第 一 列 (通常 为 年 份 或 序号 ) 
post=scale (post) # 对 数据 做 正 态 离 差 标 准 化 
ca=cancor (post[,1:4],post[,5:8]) 








续 表 
» 





options (digits=4) 


VW VIIV VY YY 


ca 
$cor 


[1] 0.9984 0.9512 0.4436 0.3557 


$xcoef 
[1:1] [1,2] [#73] [,4] 
Xl1 0.02705 -0.1800 -0.01501 =0.24812 
X2 -0.05352 =0.2462 -0.67839 0.08167 
X3 .=-0.13291, 1..6587 1.86941 -1.41084 
X4 =0s11931 =1.5133 =1.37607 1.38437 
$ycoef 
[,1] [,2] [1,3] [1 4] 
YL -0.08637 -0.1173 -0.7481] 2.2384 
Y2 0.06487 1.2353 10.8194 4.7401 
Y3 -0.05893 1.1485 -9.3603 -6.8260 
Y4 -0.20940 -2.2606 -0.7167 -0.1437 
$xcenter 
Xl X2 X3 X4 
1.308e-16 5.658e-17 5.87le-18 -6.192e-17 
$ycenter 
汪汪 Y2 3 Y4 
2.178e-16 7.686e-17 -9.7l4e-17 -1.183e-16 
对 分 析 结 果 进 行 描 述 : 
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QD Scor 给 出 了 典型 相关 系数 ， 体 现 了 各 对 典型 变量 的 相关 性 由 大 到 小 的 性 质 。$xcoef 和 


$ycoef 分 别 是 典型 相关 变量 对 应 于 原始 数据 式 和 了 的 典型 载荷 系数 。$xcenter 和 $ycenter 是 数据 子 
和 了 的 样本 均值 ， 由 于 我 们 事先 做 了 标准 化 ， 因 此 这 里 是 标准 化 数据 的 均值 。 


@ 根据 典型 载荷 系数 ， 我 们 可 以 写 出 各 对 典型 变量 的 表达 式 。 根 据 $cor 可 知 前 两 对 的 相关 系 


@ 前 两 对 标准 化 的 典型 变量 的 线性 组 合 是 


数 石 =0.9984, =0.9512 ， 因 此 说 明 Ul 与 六 、U; 与 万 之 间 具 有 高 度 的 相关 关系 ， 即 邮电 业 越 发 
达 ， 经 济 形式 越 好 。 因 此 我 们 可 根据 前 两 对 典型 相关 变量 来 分 析 邮 电 业 和 经 济 发 展 的 相关 关系 。 


| 


在 第 一 对 典型 相关 变量 (U1,V) 中 ，U' 是 邮电 业 各 指标 的 线性 组 合 ， 其 中 关 ，( 移 动 电话 年 末 
用 户 ) 和 4 (固定 电话 年 末 用 户 〉 比 其 他 变量 的 载荷 系数 更 大 ， 说 明 移 动 电话 和 固定 电话 是 邮 


U, =0.027X, —0.054X, —0.133X, —0.119X%, 
V =—0.086Y +0.065Y, —0.0597, — 0.209Y, 


U, =—0.18X, —0.246X, +1.659X, —1.513X, 
[=-0.117F +1.235Y, +1.149%, —2.261Y, 
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电 业 的 主要 指标 ， 它 在 邮电 业 中 占 主导 地 位 ;而 快递 比 函 件 的 载荷 要 大 ， 说 明 随 着 经 济 的 发 展 ， 
快递 对 邮电 业 的 贡献 在 增加 ， 函 件 的 作用 在 减少 。 万 是 经 济 发 展 各 指标 的 线性 组 合 ， 其 中 马 〈 第 
三 产业 增加 值 ) 的 载荷 系数 最 大 ， 说 明 第 三 产业 是 各 产业 中 与 邮电 业 相 关联 的 主要 指标 ， 这 符合 
我 们 事前 的 分 析 。 而 其 他 产业 的 载荷 系数 基本 相当 ， 说 明 它们 与 邮电 业 的 关联 性 都 差不多 。 

在 第 二 对 典型 相关 变量 (22, 户 ) 中 ， 吧 是 邮电 业 各 指标 的 线性 组 合 ， 其 中 仍 是 古 (移动 电话 
年 末 用 户 ) 和 XXX，( 固 定 电话 年 末 用 户 〉 的 载荷 系数 较 大 ;固定 电话 和 移动 电话 用 户 量 的 符号 相 
反 ， 说明 它 们 之 间 具 有 一 定 的 相互 抑制 作用 。 态 是 经 济 发 展 各 指标 的 线性 组 合 ， 其 中 钱 〈 工 业 )、 
(建筑 业 ) 和 (第 三 产业 ) 的 载荷 较 大 。 另 外 ， 根 据 载 荷 系数 的 符号 可 以 判断 ， 其 中 工业 、 
建筑 业 和 移动 电话 是 同方 向 发 展 的 ， 第 三 产业 和 固定 电话 也 是 同方 向 发 展 的 。 





11.2 ”对 应 分 析 


在 很 多 情况 下 ， 我 们 所 关心 的 不 仅仅 是 行 或 列 变量 本 身 ， 而 是 行 变量 和 列 变量 的 相互 关系 ， 
这 就 是 因子 分 析 等 方法 无 法 解释 的 了 。1970 年 法 国 统计 学 家 JP.Benzenci 提出 对 应 分 析 ， 也 称 关 
联 分 析 、R-Q 型 因子 分 析 ， 其 是 一 种 多 元 相依 变量 统计 分 析 技术 。 它 通过 分 析 由 定性 变量 构成 的 
交互 汇总 表 ， 来 揭示 同一 变量 各 类 别 之 闻 的 差异 ， 以 及 不 同 变量 各 类 别 之 间 的 对 应 关系 ， 这 是 一 
种 非常 好 的 分 析 调 查 问卷 的 手段 。 


对 应 分 析 是 一 种 视觉 化 的 数据 分 析 方 法 ， 其 基本 思想 是 将 一 个 联 列表 的 行 和 列 中 各 元 素 的 比 
例 结构 以 点 的 形式 在 较 低 维 的 空间 中 表示 出 来 ， 优 点 在 于 能 够 将 几 组 看 不 出 任何 联系 的 数据 ， 通 
过 视觉 上 可 以 接受 的 定位 图 展现 出 来 ， 使 用 起 来 直观 、 简 单 、 方 便 ， 因 此 广泛 应 用 于 市 场 细 分 、 
产品 定位 、 地 质 研究 以 及 计算 机 工程 等 领域 。 


11.2.1 理论 基础 


对 应 分 析 是 寻求 样本 〈 行 ) 与 指标 〈 列 ) 之 间 联 系 的 低 维 图 示 法 ， 其 关键 是 利用 一 种 数据 变 
换 方法 ， 使 含有 个 样本 观测 值 和 m 个 变量 的 原始 数据 矩阵 式 变 成 另 一 个 矩阵 Z2，Z 是 一 个 过 渡 
和 矩阵， 在 接 下 来 的 计算 中 使 用 。 


Xl Xl Xlm 211 212 Zlm 

xX 六 ~ pg Z 区 

21 X22 2 21 222 2 
及 二 ”|， 轨 三 . 
Xl Xn2 Ye i Zl Zn2 Zim 


通过 矩阵 Z, 将 样本 和 变量 有 机 地 结合 起 来 。 首先, 变量 之 间 关 系 的 协 方差 矩阵 Sk = 2'Z 和 
样本 之 间 关 系 的 协 方差 矩阵 so = 22' 具 有 相同 的 非 零 特征 根 ,它们 相应 的 特征 向 量 之 间 也 有 密切 
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的 关系 。 


对 协 方差 矩阵 Sx*，So 进行 因子 分 析 ， 分 别提 取 两 个 最 重要 的 公 因 子 R、 忆 与 O、2。 我 们 
采取 的 是 一 种 特殊 变换 方法 ， 由 于 sg、So 具 有 相同 的 非 零 特征 根 ， 而 这 些 特征 根 正 是 各 因子 所 提 
供 的 方差 ， 那 么 公 因 子玉 与 O、R2 与 2 在 本 质 上 也 是 相同 的 。 故 可 用 相同 的 因子 轴 同 时 表示 指 
标 和 样本 ， 将 RI/、Q1 和 R,、0Q, 两 组 数据 点 画 在 同一 个 直角 坐标 系 中 ， 从 而 可 以 根据 数据 点 的 距 
离 考察 样本 与 指标 之 间 的 相互 关系 。 


11.2.2 ”对 应 分 析 的 步骤 
设 原始 数据 矩阵 瑟 = (09 ) ww， i=1,2,…,n，j=1,2,…,m ，n 为 样本 数 ，m 为 变量 数 。 
@ 计算 过 渡 和 矩阵 Z = (2y )w : 
A 
si J ， i 
其 中 六 .为 第 i 行 的 求 和 ， 头 .为 第 j 列 的 总 和 ，X. 为 全 部 数据 的 总 和 。 
@ 对 Sk =2Z'Z 做 因子 分 析 。 


> 


一 


计算 协 差 阵 S4 = Z'Z 的 特征 根 为 > >…> 为 ， 按 其 累积 百分比 六 /六 罗 >85% 取 前 
i=]l i=] 
个 特征 根 ， 实 际 分 析 为 达到 降 维 的 目标 ,通常 取 p=2。 并 计算 相应 的 标准 化 特征 向 量 4 、t ， 从 
而 得 到 因子 载荷 矩阵 FF。 


mv/ ij 
天 三 wy uy 


Wi nals 


在 两 因子 轴 平 面 上 作 m 个 变量 的 散 点 图 。 
@ 对 So =22 做 因子 分 析 。 


对 上 述 2 个 特征 根 黎 、 录 计算 So =22 中 相应 的 标准 化 特征 向 量 W = Zu,v, = Zu,， 从 而 得 
到 因子 载荷 矩阵 
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wj/ vv 
G= wa ov 


wy wa 
继续 在 上 面 的 两 因子 轴 平 面 上 作 个 样本 的 散 点 图 。 
11.2.3 R 语言 实现 


R 中 的 程序 包 MASS 提供 了 两 个 图 数 ，correspO0 用 于 做 简单 的 对 应 分 析 ，mca0 用 于 计算 多 重 
对 应 分 析 ， 通 常 使 用 前 者 ， 其 调用 格式 为 


Corresp(x, nf = 1， .，) 
其 中 ，x 是 数据 矩阵 ，nf 表示 因子 分 析 中 计算 因子 的 个 数 ， 通 常 取 2。 


下 面 举 例 说 明 correspO 的 使 用 和 结果 分 析 。 一 项 研究 汉字 读 写 能 力 与 数学 的 关系 的 调查 取得 
了 232 个 美国 亚 裔 学 生 的 数学 成 绩 和 汉字 读 写 能 力 的 数据 。 汉 字 读 写 能 力 指标 有 3 个 水 平 :“ 纯 
汉字 ”表示 可 以 自如 地 进行 纯 汉 字 读 写 ,“ 半 汉字 ”表示 读 写 中 只 有 部 分 汉字 (类 似 日 文 ), 而 “ 纯 
英文 ”表示 只 能 读 写 英文 而 不 懂 汉 字 ; 表示 数学 成 绩 的 有 A、B、C、D 这 4 个 水 平 。 数 据 以 列 
联 表 形式 展示 在 表 11.3 中 。 


表 11.3 “汉字 读 写 能 力 与 数学 成 绩 

汉字 读 写 能 力 

ME 相 汪 生生 | 现 汪 二 到 村 
EER TR CR | 


纯 汉 字 | 


一 
mx on | la 





>ch=data.frame (A=c (47, 22,10) ,B=c (31, 32,11) ,C=c (2, 21,25),D=c (1,10,20)) # 直 接 给 出 矩阵 
的 列 名 

> rownames (ch)=c ("Pure-Chinese", "Semi-Chinese","Pure-English") # 给 出 和 撼 阵 的 行 名 

> library (MASS) 

> ch.ca=corresp (ch, nf=2) 

> options (digits=4) 

> ch.ca 

First canonical correlation(s): 0.5521 0.1409 


Row scores: 
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[,1] [1,2] 
Pure-Chinese 1.2069 0.6383 
Semi-Chinese -0.1368 -x3079 
Pure~English -1.3051 0.9010 


Column scores: 
Li] [1,2] 
0.9325 0.9196 
O4573. —=11655 
-.2486 -0.5417 
-1.5346 1.2773 


分 析 结 果 给 出 了 两 个 因子 对 应 行 变量 、 列 变量 的 载荷 系数 。 对 应 分 析 是 一 种 可 视 化 的 多 元 统 
计 方 法 , 它 主要 是 通过 图 形 分 析 来 得 出 结论 , 在 R 中 我 们 使 用 函数 biplot0 可 以 提取 因子 分 析 的 散 
点 图 ， 以 直观 地 展示 样本 和 变量 各 个 水 平 之 间 的 关系 。 

> biplot (ch.ca) 


绘制 结果 如 图 11.1 所 示 。 


DOAOW» 


0.3 


0.2 


Pure-English 


-02 -0.1 0.0 


-03 





图 11.1 因子 分 析 的 散 点 图 1 


分 析 图 11.1 时 主要 看 两 种 散 点 的 横 坐 标 之 间 的 距离 ， 纵 坐标 的 距离 对 于 分 析 意义 不 大 。 散 点 
“ 纯 汉 字 ” 和 数学 成 绩 A 最 接近 ， 说 明 数 学 好 的 人 可 以 自如 地 进行 纯 汉 字 读 写 ， 散 点 “ 纯 英 文 ” 
与 数学 成 绩 D 非常 接近 ,说 明 数 学 差 的 人 不 会 汉字 只 会 英文 ; 而 “ 半 汉 字 ” 介 于 数学 成 绩 B 和 C 
之 间 ， 说 明 会 部 分 汉字 的 学 生 数 学 成 绩 一 般 。 


MASS 程序 包 的 函数 功能 还 是 有 限 的 ,于 是 一 些 R 软件 使 用 者 开发 了 专门 用 来 处 理 对 应 分 析 
的 程序 包 ， 如 ca。ca 包 的 作者 是 Michael Greenacre 和 Oleg Nenadic， 该 包 专 门 用 于 计算 并 可 视 化 
简单 对 应 分 析 、 多 重 及 联合 对 应 分 析 。 
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程序 包 ca 的 主要 函数 汇总 如 表 11.4 所 示 。 


表 11.4 程序 包 ca 的 函数 


函数 


功能 
print0 和 summary() print0 和 summary() 
plot0 和 plot3d.ca0 plot0 和 plot3d.mjca() 


对 应 分 析 广泛 地 应 用 于 市 场 研究 中 ， 常 常 结合 问卷 调查 方法 ， 在 产品 定位 、 市 场 细 分 方面 是 
一 项 非常 重要 的 统计 技术 。 在 企业 营销 中 ， 经 常 需要 明确 产品 定位 : 什么 样 的 消费 者 在 使 用 本 企 
业 生 产 的 产品 ? 在 不 同类 型 的 消费 者 心目 中 ， 哪 一 个 品牌 更 受 欢 迎 ? 当 数 据 量 较 小 时 ， 可 以 使 用 
列 联 表 来 分 析 不 同类 型 的 消费 者 在 选择 品牌 上 的 差异 。 但 是 列 联 表 存 在 一 个 问题 ， 当 变量 很 多 且 
每 个 变量 又 有 多 个 类 别 时 ， 数 据 量 很 大 ， 很 难 直 观 地 发 现 变 量 间 的 内 在 联系 ， 这 时 对 应 分 析 就 是 
一 种 有 效 的 解决 方案 。 


例如 ， 某 企业 对 218 名 受 访 人 员 进 行 了 收入 水 平和 品牌 选择 关系 的 调查 研究 ， 收 入 水 平分 为 
高 、 中 、 低 3 个 等 级 ， 品 牌 有 A~F 6 个。 得 到 表 11.5 所 示 的 调查 数据 ， 对 其 进行 对 应 分 析 。 





表 11.5 收入 水 平和 品牌 选择 关系 的 调查 数据 





brand=data.frame (low=c (2,49,4,4,15,1),medium=c(7,7,5,49,2,7),high=c(16,3,23,5,5,1 
4)) 


> rownames (brand)=c ("A", "B", "C","D", "E", "FEF") 
> library (ca) 

> options (digits=3) 

> brand.ca=ca (brand) 

>brand.ca 

Principal inertias (eigenvalues): 


Value 0.530966 0.343042 
Percentage 60.75% 39.25% 
Rows: 
A B C D E F 
Mass OT47 0.271 0.147 0.266 0.101 0.1009 


ChiDist 0.7704 1.026 0.906 1.029 0.738 0:79839 


Inertia 0.0681 0.285 
Dim. -0.7267 1.399 
Dim, 2 0.9553 -0.200 
Columns: 

low medium 
Mass 0.3440 Q.. 353 
ChiDist 1.0058 0.861 
Inertia 0.3480 Qs262 
Bi 1 1.3782 =0,778 
Dims 2 ="0Q0-0663 =1=107 


0.120 Qi28 2 
-0.581 -0.850 
1.368 -1.403 


high 
0.303 
0.934 
0.264 

-0.659 
1.367 
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0.055 0.0636 
0.988 -0.8296 
0.281 0.8786 


使 用 函数 ca0 得 到 的 分 析 结 果 包 含 了 更 多 的 信息 : ChiDist 是 列 联 表 的 卡 方 检验 结果 ; Inertia 
是 惯量 , 也 就 是 我 们 所 说 的 特征 根 ; Dim. 1 和 Dim. 2 是 提取 的 两 个 因子 对 行 、 列 变量 的 因子 载荷 。 
可 通过 names() 查 看 因子 分 析 输 出 的 对 象 列 表 。 


> names (brand.ca) 


EN Moev" 


[7] "YOWCOOGLd" 
[L383] "ecoleoora" 


TY "rownames" 
"rowsup" "colnames" 
"oolLsup" meal 


"rowmass" "rowalist” "rowinertia" 
"colmass" "cooldist” "colinertia" 


例如 ， 如 下 语句 可 以 得 到 两 个 因子 对 应 的 行 的 标准 坐标 : 


> brand.ca$rowcoord 


[1] [,2] 


[i] =05727 os 
balnibs 39%, 0.200 
[3r] =Q.58L BE.3608 
[4;] -0.850 =1.403 
[5;] 0.988 0.281 
[67] -0.830 0.879 


接 下 来 用 plot0 函 数 绘制 因子 分 析 的 散 点 图 ， 通 过 图 形 分 析 得 到 最 后 的 结论 。 


> plot (brand.ca) 


绘制 结果 如 图 11.2 所 示 。 


对 应 分 析 散 点 图 是 由 品牌 类 别 和 
收入 类 别 的 因子 坐标 值 组 成 ， 从 中 可 
以 看 出 , 低 收入 人 和 群 倾向 于 选择 品牌 B 
和 EE， 中 收入 水 平 倾向 于 选择 品牌 D， 
而 高 收入 水 平 倾向 于 品牌 A、C 和 下 ， 


这 样 企业 就 完成 了 初步 的 市 场 定位 。 





AV" 05" 0" 05 10° '1$ 
图 11.2 因子 分 析 的 散 点 图 2 


判别 分 析 和 聚 类 分 析 


我 们 常 说 “ 物 以 类 聚 ， 人 以 群 分 ” 分 类 学 是 人 类 认识 世界 的 基础 科学 。20 世纪 60 年 代 末 到 
70 年 代 初 ,人们 把 大 量 精力 集中 于 发 展 数值 分 类 法 ， 聚 类 分 析 和 判别 分 析 是 其 两 个 分 支 ， 它 们 和 
回归 分 析 一 起 ， 并 称 为 多 元 分 析 的 三 大 方法 。 


判别 分 析 是 多 元 统计 分 析 中 较为 成 熟 的 一 种 分 类 方法 ， 根 据 已 知 类 别 的 若干 样本 数据 ， 总 结 
出 客观 事物 分 类 的 规律 性 ， 建 立 由 数值 指标 构成 的 判别 公式 和 判别 准则 。 当 遇 到 新 的 样本 点 时 ， 
只 要 根据 总 结 出 来 的 判别 公式 和 判别 准则 ， 就 能 判别 该 样本 点 所 属 的 类 别 。 

聚 类 分 析 也 是 根据 数值 特征 对 研究 对 象 进行 分 类 的 一 种 多 元 分 析 技 术 ， 其 把 性 质 相 近 的 个 体 
归 为 一 类 ， 使 得 同一 类 中 的 个 体 具 有 高 度 同 质 性 ， 不 同类 之 间 的 个 体 具 有 高 度 异 质 性 。 聚 类 分 析 
简单 、 直 观 ， 主 要 应 用 于 探索 性 的 研究 。 


这 两 种 方法 都 是 非常 实用 的 数据 分 析 方 法 ， 本 章 将 简要 介绍 它们 的 基本 原理 与 方法 ， 着 重 介 
绍 如 何 应 用 R 软件 做 数据 分 析 。 





12.1 判别 分 析 及 R 实现 


在 日 常生 活 和 工作 实践 中 ， 我 们 常常 会 遇 到 判别 分 析 问 题 ， 即 根据 已 知 归 类 的 资料 确定 一 种 
判别 方法 ， 建 立 由 数值 指标 构成 的 分 类 规则 即 判 别 函数 ， 然 后 把 这 样 的 规则 应 用 到 未 知 分 类 的 样 
本 中 ， 判 定 一 个 新 的 样品 应 归属 于 哪 一 类 。 这 些 已 知 归 类 的 来 自 大 个 总 体 的 若干 个 样品 称 为 “ 训 


口 ”% 
二 小 HH 。 


判别 分 析 是 发 现 事物 客观 规律 的 方法 ， 因 此 具有 很 强 的 实用 性 。 例 如 在 气象 分 析 中 ， 根 据 已 
有 的 气象 资料 如 温度 、 气 压 等 ， 来 判断 明天 是 晴天 还 是 阴 天 、 是 否 下 雨 ; 又 如 在 植物 学 中 ， 新 发 
现 的 一 种 植物 ， 根 据 其 各 方面 特征 判断 它 应 属于 哪 一 个 科目 等 。 


判别 分 析 的 方法 有 多 种 ， 和 常用 的 是 距离 判别 法 〈 马 氏 距 离 )、Fisher 判别 法 和 Bayes 判别 法 。 
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12.1.1 距离 判别 法 


距离 判别 法 的 基本 思想 是 根据 样品 x 和 总 体 G 的 距离 来 判断 样品 所 属 的 总 体 。 首先 要 解决 的 
问题 是 如 何 构造 一 个 恰当 的 距离 函数 ， 表 示 样 本 和 总 体 的 距离 。 


两 点 间 的 距离 公式 可 以 从 不 同 角度 进行 定义 ， 从 几何 空间 的 距离 概念 出 发 ， 我 们 很 容易 想到 
欧式 距离 


d(x,G)=(x—p)'(x—n) 

其 中 ，Ah 是 G 的 均值 向 量 。 

但 使 用 欧式 距离 时 要 注意 量 纲 问题 ， 当 变量 的 测量 值 相差 基 殊 时 ， 要 先进 行 标准 化 ， 以 消除 
计量 单位 对 计算 结果 的 影响 ， 因 此 引入 了 马 氏 〈Mahalanobis) 距离 的 概念 。 马 氏 距 离 是 变量 标准 
化 后 的 欧式 距离 ， 不 受 计量 单位 的 影响 ， 

d(x,O)= x- E(x) 

(1) 两 个 总 体 的 距离 判别 法 

设 有 两 个 总 体 Cl 和 G,， 两 个 总 体 的 距离 判别 问题 即 为 ， 对 于 一 个 新 的 样品 ， 要 判断 它 究 
竟 来 自 哪个 总 体 。 判别 原则 是 按照 就 近 原 则 归 类 , 计算 新 样品 全 到 G, 的 距离 与 到 Gi 的 距离 之 差 ， 
如 果 其 值 为 正 ， 则 天 属于 G1!， 否 则 六 属于 G;。 用 马 氏 距离 给 定 判别 规则 如 下 : 


XXeG, 如 果 d*(X,G)<d (X,G,) 
针 EG;, 如 果 id? (六 ;G,)<d?(XX,G,) 
待 判 ， 如 果 d”(X,G)=d”(X,G,) 


计算 中 两 个 总 体 的 KL 和 三 真 实 值 均 未 知 , 需要 根据 训练 样品 计算 它们 的 极 大 似 然 估 计 值 。 特 
别 的 ， 如 果 假 定 两 个 总 体 的 协 方差 阵 相等 ， 则 将 它们 共同 的 王 代 入 马 氏 距离 的 计算 中 ， 可 由 马 氏 
距离 之 差 推导 出 一 个 线性 判别 函数 历 ( 关 ) 。 距 离 之 差 等 于 


上 Rs 
dX,G,) -4d (X,G)=2X -HE (pp) 


p= Q = 忆 1(j4 一 1 ) 称 为 判别 系数 ， 从 而 线性 判别 函数 简化 为 


W(X)=a'(X—h) 


把 待 判 样 品 的 值 代入 判别 函数 ， 根 据 计算 结果 是 否 大 于 0 得 出 判别 结论 ， 所 以 前 面 的 判别 规 
则 就 可 以 写成 
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XeG, 如 果 W(X)>0 
和 eG, 如 果 W(X)<0 
待 判 ,如果 V(X)=0 
用 线性 判别 函数 进行 判别 分 析 非 常 直观 ， 使 用 也 方便 ， 在 实际 中 的 应 用 最 广泛 。 
(2) 多 个 总 体 的 距离 判别 法 
多 个 总 体 的 距离 判别 仍然 遵循 “就 近 原 则 ”， 设 有 上 个 总 体 ， XX 是 一 个 待 判 样品 ， 它 与 总 体 i 
的 距离 即 为 判别 函数 ， 
df (X,G)=(X-1)T (X-h,) 
=XTEX-2XT ,+h Ey, 
相应 的 判别 规则 为 
D, ={X:4 (CX,0) =mind’(X, G6),i=L2,...,k 


若 兰 落 在 区 域 D, 内， 那么 可 以 判断 装 eEG。 与 两 总 体 情况 类 似 ， 计 算 中 可 以 考虑 
ZZ = =…= 世 :和 蕊 ;各 不 相等 的 两 种 情况 。 


12.1.2 ”距离 判别 法 的 R 实现 


总 体 来 讲 ， 进 行距 离 判别 分 析 时 只 需要 知道 总 体 的 数字 特征 《均值 和 协 方差 矩阵 )， 而 不 涉 
及 总 体 的 分 布 函数 。 参 数 未 知 时 可 用 样本 的 均值 和 协 方差 矩阵 来 估计 ， 简 单 实用 , 在 及 语言 中 实 
现 起 来 也 比较 简单 。 首 先 ， 我 们 介绍 两 个 计算 距离 的 函数 。 最 常用 的 距离 函数 是 dist0， 它 按照 指 
定 方法 计算 数据 矩阵 行 之 间 的 距离 ， 默 认 计算 欧式 距离 ， 算 完 后 返回 一 个 所 有 上 距离 的 和 矩阵， 其 调 
用 格式 为 


dist(x, method = "euclidean", diag = FALSE, upper = FALSE, p = 2) 

x 表示 数据 矩阵 ，method 用 于 指定 计算 方法 ，12.2 节 “ 聚 类 分 析 及 及 实现 ”中 我 们 将 详细 介 
绍 ; diag 是 逻辑 值 ， 当 diag 为 TRUE 时 ， 输 出 距离 矩阵 的 对 角 线 ; 类 似 的 ，upper 为 TRUE 时 ， 
输出 距离 矩阵 的 上 三 角 部 分 。 


另 一 个 函数 是 mahalanobis()， 专 门 用 来 计算 马 氏 距离 ， 其 调用 格式 为 


mahalanobis(x, center, cov, inverted = FALSE, ...) 


其 中 x 是 样本 数据 的 向 量 或 矩阵 ; center 是 分 布 的 均值 ，cov 是 分 布 的 协 方差 矩阵 , 通常 使 用 
样本 值 做 估计 ; inverted 是 逻辑 值 ， 如 果 为 TRUE， 则 cov 应 该 包含 协 方差 阵 的 逆 。 
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随 着 程序 包 的 开发 , R 中 已 经 有 了 可 以 直接 进行 距离 判别 分 析 的 函数 。 目 前 在 程序 包 WMDB 
中 ， 函 数 wmd0 可 以 实现 加 权 马 氏 距 离 判 别 分 析 ， 它 利用 了 上 面 的 函数 mahalanobis0 进 行 计算 ， 
并 返回 一 个 结果 表单 和 准确 度 的 报告 ， 在 两 个 总 体 和 多 个 总 体 的 条 件 下 均 可 直接 计算 。 我 们 在 本 
节 中 介绍 的 距离 判别 法 是 传统 的 Mahalanobis 距离 判别 方法 , 其 将 所 有 参数 的 重要 性 视 为 相同 的 ， 
有 时 会 夸大 一 些 参数 的 作用 ， 所 以 函数 wmd0 还 可 以 通过 对 参数 的 权重 进行 赋值 来 区 分 每 个 参数 
的 重要 性 。 其 调用 格式 为 


wmd (TrnX, TrnG, Tweight = NULL, TstX = NULL, var.equal = F) 


TrnX 是 训练 样品 的 矩阵 或 数据 框 ，TrmG 用 于 表示 已 知 的 训练 样本 的 分 类 ， 注 意 它 必 须 是 个 
因子 向 量 ， 通 过 TrnG 指定 训练 样本 的 总 体 可 实现 多 个 总 体 的 判别 分 析 ; Tweight 指定 权重 ， 是 个 


矩阵 或 数据 框 ， 如 果 没 有 定义 权重 ， 那 么 R 将 在 主 成 分 分 析 的 基础 上 计算 相应 贡献 度 的 百分比 作 
为 代替 ， 当 把 所 有 参数 的 权重 定义 为 等 值 时 ， 就 是 传统 的 判别 分 析 方 法 ; TstX 是 待 测 数 据 的 矩阵 
或 数据 框 ， 默 认 情 况 下 是 NULL 即 没有 指定 ， 可 直接 对 训练 样本 进行 判别 分 析 ; varequal 指定 总 
体 是 否 具有 相等 的 协 方 差 阵 ， 默 认为 FALSE。 


下 面 介绍 一 个 利用 判别 分 析 研 究 中 小 企业 破产 模型 的 案例 。 我 们 选取 4 个 经 济 指标 用 于 判断 
企业 处 于 破产 状态 还 是 正常 运行 状态 ， 其 中 对 是 总 负债 率 〈 现 金 收 益 /总 负债 )， 怠 是 收益 性 指标 
( 纯 收入 /总 财产 )， 为 是 短期 支付 能 力 《〈 流 动 资产 /流动 负债 )， 怠 是 生产 效率 性 指标 〈 流 动 资产 / 
纯 销 售 额 )， 已 知 17 个 破产 企业 (1 类 ) 和 21 个 正常 运行 企业 (2 类 ) 的 数据 资料 ， 部 分 训练 样 
品 如 表 12.1 所 示 。 


表 12.1 训练 样品 的 部 分 数据 


ee 小村 所 人 生产 风 





根据 以 上 信息 建立 判别 准则 ， 对 以 下 8 个 待 判 样本 进行 判别 分 析 ， 数 据 如 表 12.2 所 示 。 
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表 12.2 待 判 样本 调查 数据 





首先 读 入 训练 样品 的 数据 ， 对 它们 计算 马 氏 距离 ， 函 数 mahalanobis() 要 求 指 定 距 离 计 算 公 式 
中 的 均值 和 协 方差 矩阵 ， 因 此 要 使 用 训练 样品 矩阵 的 估计 值 代 替 。 


B=read.table("d:/data/bankruptcy.txt",header=T) 
mu=colMeans (B)  # 对 短 阵 B 的 列 求 均值 ， 直 接 得 到 各 指标 的 均值 
Sx=cov (B) # 计 算 训 练 样品 
distance=mahalanobis (B,mu, Sx) 

options (digits=3) # 设 置 显示 小 数 点 格式 

distance 


[1] 4.438 10.528 1.353 1.220 2.158 2.050 4.870 1.340 2.211 3.265 0.897 

[12] 1.774 0.471 8.617 1.883 2.928 2.079 3.732 0.413 1.722 0.492 4.430 
[23] 5.695 2.024 1.079 Qs371 0s845 195578 305306 4.221 0.711 9.011 7.096 
[341 “45696~0803 ~ 1982 2.5955 “112755 


训练 样本 的 均值 和 协 方差 阵 作为 总 体 的 估计 值 ， 计 算 结果 distance 是 每 个 训练 样本 距离 总 体 
的 马 氏 距离 ， 判 别 分 析 就 是 在 这 个 结果 的 基础 上 进行 的 。 使 用 程序 包 WMDB 中 的 函数 wmd() 直 


接 计算 ， 首 先 在 不 指定 参数 TstX 的 情况 下 ， 对 训练 样品 作 判 别 分 析 ， 可 以 得 到 38 个 样本 的 分 类 
判别 结果 、 错 判 的 样本 信息 以 及 判别 分 析 的 准确 度 。 


> 


library (WMDB) 


> G=c (rep (1,17) ,rep(2,21)) # 生 成 38 个 训练 样品 的 已 知 类 别 


> G=as .factor (G) # 转 换 成 因子 向 量 ， 才 能 代入 函数 wmd () 计算 
> wmd (B,G) 


i234'5 6 7 8 9 10 1112 13-34 45 16 17 -38 19-20-214-22 23724 25 26 .27 28..29 


ob bt WL 2 0 了 人 | 


30 31 32 33 34 35 36 307 38 


bleng “2 这 | 二 吕 各 272 和 2 
[1] "num of wrong judgement" 
E14] O11. 42 134 25 30 32 

[1] "samples divided to" 

虽 J 人 和 人 人 二 让 主 
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[1] "samples actually belongs to" 
加 二 二 .十 和 这 腔 和 2 

Levels: 1 2 

[1] “percent of right judgement" 
[2 QL6 


由 分 析 结 果 可 知 ， 根 据 已 知 分 类 的 训练 样品 建立 的 判别 规则 ， 重 新 应 用 于 训练 样品 后 ， 出 现 
了 7 个 错 判 样品 ， 拥 有 81.6% 的 准确 度 。 判 别 分 析 的 准确 度 与 训练 样本 的 数据 质量 有 关 。 


将 待 判 样品 的 数据 输入 到 矩阵 中 ， 函 数 wmd0 根 据 训 练 样品 矩阵 B 的 数据 可 以 给 出 待 判 样品 
的 分 类 情况 。 


>newdata=data.frame (Xl1=c(0.04,-0.06,0.07,-0.13,0.15,0.16,0.29,0.54), 


+ X2=€ (0.01;-0.06,;-0.01,-0.14,0.06,;0.05,0.06;0.11), 
+ X3=C (1 .5,1.377;1.37;1.42,2.23712.31;1.84,2.33); 
+ X4=c (0.71,0.4,0.34,0.44,0.56,0.2,0.38,0.48)) 


> wmd (B,G,Tstx =newdata) #TstX 表示 待 判 样品 矩阵 
T2335 G7 
oo 


根据 马 氏 距离 判别 分 析 得 到 的 结果 ，8 个 待 判 样品 中 ， 除 样品 5 和 6 对 应 的 企业 处 于 正常 运 
行 状态 外 ， 其 余 6 个 企业 均 处 于 破产 状态 。 


12.1.3 ”Fisher 判别 法 

Fisher 判别 法 的 基本 思想 是 投影 (或 降 维 )， 假设 预测 因子 有 p 个 指标 ， 以 p 维 向 量 
x = 人 zzzo】 表示 ，Fisher 判别 分 析 就 是 要 用 x 的 线性 组 合作 为 线性 判别 函数 
了 = qx 二 2 十 … 二 apxp ， 来 代 蔡 原始 的 p 个 变量 为,X,…,X。 ， 以 达到 降 维 的 目的 ， 并 找 
出 的 一 个 临界 值 对 样品 的 分 类 做 出 判别 。 

以 两 个 总 体 4、B 为 例 ， 总 体 4 有 五 组 数据 ， 判 别 函数 对 应 的 值 记 为 其, 芭 ，… 芒 ， 总 体 8 
的 判别 函数 值 为 六 ,有 2，… ys， 其 均值 为 


ya 1 ni se 1 及 
y =— Dy i 


Fh i=1 2 =] 


接 下 来 借助 方差 分 析 的 思想 ， 确 定 判别 函数 系数 a' ,qa, ,…,a, 时 要 求 使 总 体 之 间 区 别 最 大 ， 
而 使 每 个 总 体内 部 的 离 差 平方 和 最 小 。 即 


i 
O 组 间 平 方 和 (一 7) 越 大 越 好 ; 
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@ 组 内 平方 和 》 (六 一 +》 (y 一 纪 》 越 小 越 好 。 
i=] i=l 


这 就 是 Fisher 提出 的 最 优 判 别 准则 。 若 满足 中 和 人 @ 两 个 条 件 ， 那 么 比值 


[二 


应 该 充分 大 ， 从 而 判别 函数 的 系数 a',a,,…,a, 为 函数 A(a) 的 极 大 值 点。 在 做 出 判断 之 前 ， 我 

们 要 给 出 判别 的 标准 ， 即 判别 函数 的 临界 值 

有 St 

最 后 做 判别 :车 一 个 判别 对 象 的 数据 为 (Xo1, X02,…, Xop) ， 则 可 以 写 出 它 的 判别 函数 值 
p=CXo 十 C2Xoz 十 … 十 CpXop 

判别 规则 为 : 

@ yy > 时， 车 > yo， 则 判断 该 对 象 属于 总 体 4， 否 则 属于 总 体 B; 

加 六 > 名 时 ， 车 > 加， 则 判断 该 对 象 属于 总 体 B， 否 则 属于 总 体 4。 


从 几何 的 角度 看 ， 判 别 函 数 就 是 尸 维 向 量 世 在 某 种 方向 上 的 投影 。 使 得 变换 后 的 数据 同类 别 
的 点 “ 尽 可 能 聚 在 一 起 ?>， 不 同类 别 的 点 “ 尽 可 能 分 离 ”， 以 此 达到 分 类 的 目的 。 

如 果 有 多 个 类 别 ，Fisher 判别 可 能 需要 两 个 或 者 更 多 的 判别 函数 才能 完成 分 类 。 通 常 判 别 函 
数 的 个 数 远 远 小 于 向 量 X 的 维 数 ， 才 能 够 达到 “ 降 维 ” 的 目的 ， 一 般 来 说 判别 函数 的 个 数 等 于 分 
类 的 个 数 减 一 。 
12.1.4 ”Fisher 判别 法 的 R 实现 


R 程序 包 MASS 提供 了 做 Fisher 判别 分 析 的 函数 1da0, 这 也 是 目前 R 软件 中 最 常用 的 判别 函 
数 ， 其 调用 格式 为 


ldal(lformula, data, ..., subset，na.action) 


formula 为 形 如 groups ~xl + x2 + … 的 公式 ， 也 就 是 说 左 侧 响应 变量 表示 分 组 (因子)， 右 侧 
指定 指标 变量 ( 非 因子 ); data 指定 数据 集 ; subset 是 索引 向 量 ， 指 定 训练 样本 ，na.action 指定 数 
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据 中 包含 缺失 值 时 应 采取 的 行为 。 
如 果 不 使 用 formula 作为 主要 参数 ， 则 lda0 也 可 以 用 如 下 形式 : 


lda(x, grouping, ..., subset, na.action) 


x 是 包含 解释 变量 的 矩阵 或 数据 框 ，grouping 是 一 个 因子 向 量 ， 指 定 每 个 观察 值 的 类 别 。 这 
种 调用 方法 类 似 于 距离 判别 函数 wmd()。 


继续 对 中 小 企业 破产 模型 的 案例 做 Fisher 判别 分 析 。 使 用 lda0 的 第 一 种 调用 格式 ， 要 求 数据 
集中 包含 训练 样本 分 类 的 变量 ， 所 以 读 入 数据 后 先 做 处 理 ， 增 加 一 列 变量 class 表示 已 知 类 别 。 

> B=read.table("d:/data/bankruptcy.txt",header=T) 

> G=c (rep (1,17) ,rep(2,21)) # 生 成 38 个 训练 样品 的 已 知 类 别 

> G=as .factor(G) # 转 换 成 因子 向 量 

> B$class=G # 将 因子 向 量 G 存 入 数据 框 B 中 

> attach (B) 

> names (B) 间 显 示 数 据 框 B 中 的 所 有 对 象 
[IT WD V3 "x4" Velass™ 


准备 好 数据 后 ， 做 判别 分 析 : 


> library (MASS) 

> B.lda=lda (class~X1l+X2+X3+X4) 
> B.lda 

Call: 

ldal(lclass ~ Xl1 + X2 + X3 + X4) 


Prior probabilities of groups: 
时 公 
0.4473684 0.5526316 


Group means : 


XI X2 X3 X4 
下 -0.07941176 -0.088823529 1.348824 0.4300000 
4 0722571429 ‘0.005238095 22v672857 0.4409524 


Coefficients of linear discriminants: 
LD1 

Kl 2..9467933 

X2 -1.2905768 

X3 0.7666717 

X4 -0.5895412 


解释 分 析 结 果 : Group means 给 出 了 类 别 1、2 下 各 个 变量 的 均值 ; Coefficients of linear 
discriminants 是 各 判别 函数 对 判别 分 类 的 贡献 大 小 ， 本 例 是 两 个 总 体 的 判别 分 析 ， 所 以 只 需要 一 
个 判别 函数 即 可 。lda0 返 回 的 结果 B.lda 包含 根据 训练 样本 建立 的 判别 函数 和 判别 规则 ， 在 B.lda 
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的 基础 上 我 们 对 训练 样本 或 待 判 样本 进行 分 类 的 判断 。 首 先 将 lda0 的 分 析 结 果 应 用 于 原来 的 训练 
样本 进行 类 别 的 判断 , 通过 R 内 置 函 数 predictO 完 成 ， 并 构建 一 个 列 联 表 ， 与 真实 类 别 进行 对 比 。 
> class.pre=predict (B.1da) $class # 选 择 预测 结果 中 的 对 象 class， 是 预测 的 样本 所 属 类 别 


> table(class.pre,class) 


class 
class.pre 所 浊 

由 1 .3 

入. 过 站 入 8 


根据 列 联 表 的 结果 ， 一 共有 5 个 错 判 的 样本 ， 准 确 度 为 86.8%。 如 果 我 们 想 要 了 解 判别 分 析 
的 效果 ， 准 确 度 并 不 是 一 个 绝对 的 判断 标准 ， 这 时 我 们 可 以 对 真实 的 样本 分 类 和 预测 分 类 作 卡 方 
检验 ， 用 检验 的 P 值 来 判断 判别 分 析 的 准确 程度 。 


> chisq.test (class,class.pre) 
Pearson's Chi-~-squared test with Yates' continuity correction 


data: class and class.pre 

X-squared = 17.7, df = 1, p-value = 2.522e-05 

卡 方 检验 的 P 值 远 小 于 显著 性 水 平 0.05， 说 明 判 别 分 析 的 预测 结果 和 真实 值 比较 一 致 ， 判 别 
分 析 是 可 信 的 。 接 下 来 输入 待 判 样本 的 数据 ，predictO 可 以 直接 对 新 的 样本 做 判别 分 析 ， 通 过 参数 
newdata 指明 待 判 样本 的 数据 矩阵 。 


> newdata=data.frame (X1=c(0.04,-0.06,0.07,-0.13,0.15,0.16,0.29,0.54)， 


十 X2=c{0.01,-0.06,-0.01,-0.14,;0.06,0.05,0,06,0.11), 
十 X3=G(15713771.3771s4272.237231 89447233)7 

十 X4=c (0.71,0.4,0.34,0.44,0.56,0.2,0.38,0.48)) 

> predict (B.lda,newdata=newdata) 

$class 


| 
Levels: 1 2 


$posterior 
1 2 

1 QT7449 0.255 
2 0.7838 02216 
3 0.6583 0.342 
4 0.8093 0.191 
5 0.3658 0.634 
6 0.2470 0.753 
7 0.2804 0.720 
8 0.0624 0.938 


Uy 
x 


LD1 
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-0.8120 
=0.9333 
=0.5794 
=La0216 
0.0957 
0.4116 
0.3153 
1.3042 


© nD ss WwW WD 二 


可 见 ，predictO 预 测 的 结果 包含 3 个 对 象 ，$class 是 判别 分 析 的 直接 结果 ， 给 出 各 待 判 样本 的 
分 类 ; $posterior 表示 各 待 判 样本 属于 某 一 类 别 的 概率 ; $x 是 线性 判别 函数 的 具体 取 值 。 根 据 Fisher 
判别 法 得 到 的 预测 结果 是 ， 待 判 样本 中 前 4 个 样品 对 应 的 企业 处 于 破产 状态 ， 后 4 个 企业 处 于 正 
常 经 营 状 态 。 

12.1.5” 贝 叶 斯 判别 法 


贝 叶 斯 (Bayes) 判别 法 的 基本 思想 是 假定 对 所 研究 的 对 象 已 有 一 定 的 认识 ， 用 先 验 概率 来 描 
述 这 种 认识 ， 然 后 抽取 样本 ， 用 样本 来 修正 已 有 的 认识 ， 得 到 后 验 概 率 分 布 。 贝 叶 斯 判别 法 基于 
贝 叶 斯 公式 ， 它 可 以 建立 一 定 的 判断 准则 ， 使 得 平均 错 判 的 损失 最 小 。 


EP(A|B,)P(B,) 
其 中 ，P(B,) 是 B, 的 先 验 概率 ，P(B,)|4 是 BB 的 后 验 概率 。 


设 有 Kk 个 总 体 G(i=1,2,.…,k)，G; 具 有 概率 密度 函数 (x)， 根 据 以 往 的 统计 分 析 ，G; 出 现 
的 先 验 概率 是 9 ， 则 有 9 +9 +…+gk =1。 判别 分 析 的 一 个 重要 指标 是 误 判 概率 ， 即 某 样本 来 自 
总 体 G,;， 但 被 错 判 到 总 体 G 的 条 件 概率 ， 公 式 表示 为 


p(i/D)=P(XeD,/G)= [fdr, izj 
D, 
其 中 妃 , 表 示 X 的 区 域 划分 ， 著 e D, 时 说 明 它 属于 总 体 G。 
用 L(j /i) 表 示 相 应 误 判 所 造成 的 损失 ， 那 么 平均 误 判 损失 定义 为 
ECM = Yal pA 
= 
因此 ， 贝 叶 斯 判别 法 的 准则 为 ， 寻 找 区 域 D ， 极 小 化 平均 误 判 损失 ECM， 即 


D,={x1h(W) =minh (oo), T= 2 .ek 
1<j<k 


252 ”数据 分 析 : R 语言 实战 
天 

其 中 ,有 (x)= 了 gL /Df (x). 
ii 


总 体 来 说 ， 当 我 们 抽取 了 一 个 未 知 总 体 的 样品 值 x*， 要 判断 它 属于 哪个 总 体 ， 只 要 先 计算 出 
个 按 先 验 概率 加 权 的 平均 误 判 损失 ， 然 后 比较 其 大 小 ， 选 取 平 均 误 判 损失 最 小 的 ， 即 可 判定 样品 
属于 该 总 体 。 


12.1.6 ” 贝 叶 斯 判别 法 的 R 实现 


程序 包 WMDB 中 的 函数 dbayes() 用 于 实现 贝 叶 斯 判别 法 , 它 与 距离 判别 函数 wmdO 属 于 同一 
个 包 ， 调 用 方式 也 很 相似 : 


dbayes (TrnxX, TrnG, p = repl(l, length(levels (TrnG))), TstX = NULL, var.equal = FALSE) 


TrnX 是 训练 样品 的 矩阵 或 数据 框 ，TrnG 用 于 表示 已 知 的 训练 样本 分 类 ， 是 一 个 因子 向 量 ; p 
是 指定 先 验 概率 的 向 量 ;，TstX 是 待 测 数 据 的 矩阵 或 数据 框 ， 默 认 情 况 下 是 NULL 表示 没有 指定 ， 
则 直接 对 训练 样本 进行 判别 分 析 ; varequal 指定 总 体 是 否 具 有 相等 的 协 方差 阵 ， 默 认为 FALSE。 


接 下 来 在 R 中 对 本 节 的 破产 模型 案例 做 贝 叶 斯 判别 ， 对 训练 样本 做 判别 : 


> library (WMDB) 

> dbayes (B,G) 
1 呈 续 G7 S8910 42 13 3315 165 17 18 19 .20 21 22 23 2 25 26 27 

blong 让 过 
28 29 30 31 32 33 34 35 36 37 38 

BiGRg 2 这 设 芒 久 定 区 这 明 ， 旬 浑 

[1] "num of wrong judgement" 

(AS 4 oni 9 12 13 T5617 

[1] "samples divided to" 

[这 2 

[1] "samples actually belongs to" 

| 证 对 各 

Levels: 1 2 

[1] "percent of right judgement" 

[1] 0.6578947 


对 训练 样本 做 贝 叶 斯 判别 分 析 ， 结 果 出 现 了 13 个 错 判 样品 ， 准 确 度 仅 有 65.8%，3 种 方法 中 
最 低 ， 因 此 不 宜 使 用 贝 叶 斯 判别 法 预测 待 判 样品 的 类 别 。 


12.2 聚 类 分 析 及 R 实现 


聚 类 分 析 ， 顾 名 思 义 是 研究 “ 物 以 类 聚 ”的 分 类 学 方法 ， 又 称 为 群 分 析 、 点 群 分 析 。 它 的 基 
本 思想 是 由 于 我 们 所 研究 的 样品 或 指标 之 间 存 在 不 同 程度 的 相似 性 ， 因 此 根据 一 批 样品 的 多 个 观 
测 指标 ， 可 以 具体 找 出 一 些 能 够 度量 样品 或 指标 之 间 相 似 程度 的 统计 量 ， 以 这 些 统计 量 作为 划分 
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类 型 的 依据 ， 相 似 程度 较 大 的 样品 聚合 成 一 类 。 
12.2.1 理论 概述 


对 于 同一 个 数据 集 ， 我 们 既 可 以 对 指标 (变量 ) 进行 分 类 《〈 即 对 数据 的 列 分 类 )， 也 可 以 对 
观测 值 〈 样 品 ) 进行 分 类 《〈 即 对 数据 的 行 分 类 )。 比 如 可 以 根据 学 生成 绩 数据 对 学 生 按 照 理科 或 
文科 成 绩 进 行 聚 类 分 析 ， 事 先 并 不 需要 假定 有 多 少 类 ， 完 全 可 以 按照 数据 本 身 的 规律 来 分 类 。 对 
变量 的 聚 类 称 为 R 型 聚 类 ， 而 对 观测 值 聚 类 称 为 Q 型 聚 类 。 这 两 种 聚 类 在 数学 上 是 对 称 的 ， 没有 
什么 不 同 。 

与 判别 分 析 一 样 ， 聚 类 分 析 同 样 需 要 解决 这 样 一 个 问题 : 如 何 衡量 样本 之 间 的 相似 程度 。“ 距 
离 ” 的 概念 在 这 里 同样 适用 。 


设 每 个 样品 有 p 个 指标 (变量 )。 把 n 个 样品 看 成 p 维 空 间 中 的 个 点 ， 则 两 个 样品 间 相 似 
程度 就 可 用 p 维 空间 中 的 两 点 距离 公式 来 度量 。 当 变量 的 测量 值 相差 基 殊 时 ， 要 先进 行 标准 化 ， 
以 消除 计量 单位 对 计算 结果 的 影响 。 对 于 两 点 之 间 的 距离 有 多 种 定义 方式 ， 常 用 的 计算 方法 有 以 
下 几 种 ， 


@ 绝对 值 距离 d) = | 一 x ， 
大 =1 


2 
@ 欧 氏 距离 必 = 这 cx : 
k=1 


图 切 比 雪 夫 距 离 dy 二 ax | Xi 一 Xj |; 


1<k<P 


@ 闵可夫 斯 基 距离 gd; = [》 (xu -xi)?]?,(g > 0) ， 当 g-1 时 相当 于 绝对 值 距离 ， 当 gq-2 
k=1 
时 相当 于 欧式 距离 


洲 
兰 氏 距离 d, = 一 Fa — zx ， 
@ i 
12.1.2 节 中 介绍 过 的 函数 dist0 可 以 完成 对 上 述 距离 的 计算 , 返回 结果 是 一 个 包含 所 有 样本 间 
距离 的 矩阵 。 


dist(x, method = "euclidean", diag = FALSE, upper = FALSE, p = 2) 


数据 矩阵 x 的 每 一 行 代表 一 个 样本 ; 参数 method 用 来 指定 不 同 的 距离 计算 方法 ， 如 表 12.3 
所 示 。 
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表 12.3 dist() 中 参数 method 的 取 值 


参数 method 取 值 对 应 方法 
ET 





i i | 

用 距离 来 衡量 样本 之 间 的 相似 程度 后 ， 下 一 步 是 将 距离 接近 的 点 合并 为 一 类 ， 这 也 是 聚 类 分 
析 的 核心 。 系 统 聚 类 法 〈hierarchical cluster) 是 聚 类 分 析 诸 多 方法 中 最 常用 的 一 种 ， 也 称 为 “分 
层 聚 类 ”。 它 的 基本 思想 是 开始 时 ， 有 多 少 样 本 点 就 是 多 少 类 ; 第 一 步 先 把 最 近 的 两 类 (两 个 点 ) 
合并 成 一 类 ， 然 后 再 把 剩 下 的 最 近 的 两 类 合并 成 一 类 ; 这 样 下 去 ， 每 次 都 减少 一 类 ， 直 到 最 后 只 
有 一 个 大 类 为 止 。 显 然 ， 越 是 后 来 合并 的 类 ， 上 距离 就 越 远 。 那 么 ， 又 该 如 何 衡量 类 与 类 之 间 的 距 
离 呢 ? R 中 提供 了 几 种 方法 ， 分 别 为 : 


。 离 差 平方 和 法 (ward) 

。 最短 距 离 法 〈single) 

e。 最 长 距离 法 〈complete)， 这 也 是 R 默认 的 方法 
。 McQuitty 相似 分 析 法 (mcquitty) 

e 中 间距 离 法 Cmedian ) 

。 重心 法 (centroid) 


括号 中 对 应 的 英文 单词 即 R 中 的 聚 类 分 析 函 数 hclust0 对 应 的 参数 method 取 值 ， 其 中 前 两 种 
计算 方法 比较 受 推崇 。 
12.2.2 R 实现 举例 

R 的 分 层 聚 类 分 析 函 数 是 hclust0， 其 调用 格式 为 


hclust(d, method = "complete", members = NULL) 


其 中 ，d 是 由 dist0 返 回 的 距离 对 象 ，method 指定 系统 聚 类 的 方法 ， 默 认 是 complete 最 长 距离 法 ; 
members 默认 为 NULL， 或 者 是 与 d 长度 相 等 的 向 量 ， 具 体 使 用 说 明 请 参考 R 帮助 文档 。 


得 到 聚 类 分 析 返 回 的 对 象 后 ， 使 用 函数 plotO 绘 制 聚 类 分 析 结 果 的 谱系 图 ， 调 用 格式 为 


plot (x, labels = NULL, hang = 0.1, axes = TRUE, frame.plot = FALSE, ann = TRUE, 
main = "Cluster Dendrogram", sub = NULL, xlab = NULL, ylab = "Height", ...) 


其 中 ，x 是 函数 hclust0 生 成 的 对 象 ; labels 取 值 为 FALSE 时 ， 省 去 数据 的 标签 ， 当 数据 量 较 大 时 
做 这 样 的 处 理 ， 参 数 hang 表明 谱系 图 中 各 类 别 所 在 的 位 置 ， 当 hang 取 值 为 负 时 ， 将 从 底部 开始 
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绘制 谱系 图 中 的 类 。 其 他 参数 即 高 级 绘图 函数 的 参数 ， 参 照 第 4 章 “ 数 据 的 图 形 描述 ”。 
函数 plclustO 可 以 代替 plotO 绘 制 聚 类 分 析 的 谱系 图 ， 两 者 的 使 用 方法 基本 相同 。 


聚 类 分 析 在 市 场 细 分 上 应 用 广泛 ， 可 以 帮助 企业 对 市 场 上 的 产品 进行 分 类 ， 从 而 更 准确 地 制 
定 营销 策略 。 例 如 ， 某 饮料 企业 收集 了 市 场 上 16 种 饮料 的 热量 、 咖 啡 因 、 钠 含量 和 价格 4 种 变 
量 数据 ， 如 表 12.4 所 示 。 





表 12.4 16 种 饮料 数据 





读 入 原始 数据 矩阵 后 ， 首 先 利用 函数 dist0 给 出 距离 的 计算 结果 d， 再 利用 函数 hclust0 对 d 
作 聚 类 分 析 ， 分 别 采 用 4 种 方法 并 绘图 比较 。 


MA 


.0 


drink=read.table("d:/data/drink.txt",header=T) 

drink=drink[,-1] # 去 掉 第 一 列 编号 

d=dist (drink) 

hcl=hclust (d,method="ward") # 离 差 平 方 和 法 

hc2=hclust (d, method="single") # 最 短 距离 法 
hc3=hclust (d, method="complete") # 最 长 距离 法 

hc4=hclust (d, method="median") # 中 间距 离 法 

opar=par (mfrow=c (2,2)) # 分 割 绘图 区 域 

plot (hcl,hang=-1) ;plot (hc2,hang=-1) ;plot (hc3,hang=-1) ;plot (hc4,hang=-1) 
par (opar) # 释 放 绘 图 区 域 分 割 
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绘制 图 形 如 图 12.1 所 示 。 
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Cluster Dendrogram Cluster Dendrogram 
8 
EE 
皇 择 
是 时 
员 工 8 
已 已 
局 六 本 由 四 工 一 口 有 加 四 入 加 加 昌 > 
d d 
hcilust (*, "complete") hcilust {*, “median") 


图 12.1 4 种 方法 下 聚 类 分 析 的 谱系 图 


4 种 方法 由 于 类 与 类 之 间距 离 的 计算 方式 不 同 ， 所 得 到 的 结果 也 略 有 出 入 ， 其 中 最 短 距 离 法 
与 其 余 三 种 差别 最 大 。 以 离 差 平方 和 (ward) 法 为 例 ， 编 号 为 12、14、2、4、13、3、8、11 的 
饮料 归 为 第 一 大 类 , 其 余 在 第 二 类 。 根 据 图 形 效果 , 我 们 把 16 种 饮料 细 分 为 4 类 , 通过 函数 cutreeO 
可 以 将 数据 分 组 ， 以 序号 1、2、3、4 分 别 表示 4 个 类 别 ， 如 : 


> cutree (hcl,4) 
[E33 


可 以 看 到 每 种 饮料 所 属 的 类 别 ， 至 此 ， 通 过 聚 类 分 析 进 行 的 简单 市 场 细 分 就 完成 了 。 


直接 使 用 plot0 函 数 是 绘制 谱系 图 最 简单 的 方式 ， 如 果 想 要 修改 谱系 图 样式 ， 可 以 结合 使 用 
函数 as.dendrogram()， 它 的 功能 是 将 聚 类 分 析 返 回 的 对 象 转换 成 谱系 图 对 象 ， 调 用 格式 为 


as.dendrogram(object, hang = -1, ...) 


object 即 函 数 hclustO 返 回 的 聚 类 分 析 结 果 对 象 。 这 时 plot0 的 调用 也 有 所 不 同 : 


plot (x, type = cl("rectangle", "triangle"), center = FALSE， 

edge.root = is.leaf (x) || !is.null (attr (x, "edgetext")), nodePar = NULL, edgePar = list(), 
leaflab = c("perpendicular", "textlike", "none"),dLeaf = NULL, xlab = "", ylab = "", 
xaxt = "Nn", yaxt = "s", horiz = FALSE, frame.plot = FALSE, xlim, ylim, ...) 


x 是 由 as.dendrogram() 转 换 后 的 对 和 象 ;type 表示 谱系 图 的 类 型 ,默认 值 rectangle 是 矩阵 ,triangle 
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是 三 角形 ; nodePar 表示 谱系 图 节点 的 样式 ， 用 一 个 list0 可 说 明 图 形 样 式 的 具体 信息 ; horiz 是 逻 
辑 值 ， 当 它 设置 为 TRUE 时 ， 谱 系 图 将 水 平 放置 。 


在 R 中 输入 如 下 指令 ， 绘 制 出 更 美观 的 聚 类 分 析 谱 系 图 。 


> drink.hc=as.dendrogram (hc1) 

> par (mfrow=c (1,2)) 

> plot (drink.hc,type="triangle",nodePar=1list (pch=c (1,NA),1ab.cex=0.8)) 
> plot (drink.hc,nodePar=list (pch=2:1,cex=0.4*2:;1,col1l=2:3),horiz=TRUE) 


绘制 结果 如 图 12.2 所 示 。 
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Pr 
图 12.2 不 同样 式 的 谱系 图 

总 体 来 讲 ， 在 R 中 实现 系统 聚 类 法 的 基本 步骤 是 : 

@ 读 入 数据 ， 准 备 好 数据 矩阵 。 

@ 使 用 函数 dist0 计 算 n 个 样品 两 两 间 的 距离 。 


@ 使 用 函数 hclust0 对 dist0 返 回 的 结果 对 象 做 聚 类 分 析 : 构造 个 类 ,每 个 类 只 包含 一 个 样 
品 ， 合 并 距离 最 近 的 两 类 为 一 新 类 ; 计算 新 类 与 各 当前 类 的 距离 ， 方 法 由 参数 method 指定 ; 重 
复 上 述 步 又， 合并 距离 最 近 的 两 类 为 新 类 ， 直 到 所 有 的 类 并 为 一 类 为 止 。 

@ 绘制 聚 类 谱系 图 

@@ 根据 图 形 效果 决定 类 的 个 数 和 类 。 

除了 市 场 细 分 ， 聚 类 分 析 还 常用 来 根据 一 些 指标 对 全 国 的 主要 城市 进行 分 类 ， 从 而 帮助 政府 
有 针对 性 地 对 不 同城 市 制定 政策 。 以 近年 来 最 热门 的 话题 一 一 房价 为 例 ， 我 们 可 以 运用 聚 类 分 析 
根据 房价 及 其 他 一 些 经 济 指标 ， 对 城市 进行 分 类 ， 了 解 不 同类 别 城市 的 特点 。 本 例 中 选取 了 26 


座 城市 的 5 项 经 济 指标 ， 分 别 是 : 平均 房价 、 人 均 GDP、 平 均 工 资 、 人 均 可 支配 收入 和 CPI 指数 ， 
相关 数据 来 源 于 2012 年 各 城市 的 统计 公报 及 各 主流 媒体 ， 如 表 12.5 所 示 。 
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表 12.5 2012 年 我 国 26 座 城市 房价 及 经 济 指 
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在 R 中 对 以 上 26 个 城市 进行 聚 类 分 析 ， 找 出 房价 和 经 济 指标 具有 相似 性 的 城市 ， 聚 类 方法 
使 用 “ 离 差 平方 和 ”法 。 


dat=dat [,~—1] 
d=dist (dat) 


WB VY MM 是 


绘制 结果 如 图 12.3 


hc=hclust (d, method="ward") 
plot (hc, hang=-1) 


所 示 。 


dat=read.table("d:/data/real estate.txt",header=T) 


Cluster Dendrogram 


150000 250000 


Height 
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d 
hclust (*, "ward") 
图 12.3 城市 聚 类 分 析 的 谱系 图 


为 了 便于 在 图 形 上 显示 标签 ， 我 们 用 序号 表示 对 应 的 城市 ， 根 据 谱 系 图 的 分 类 情况 、 各 类 别 
所 含 城市 数量 ， 我 们 将 所 有 城市 分 为 4 类 ， 其 汇总 如 表 12.6 所 示 。 


表 12.6 城市 聚 类 分 析 结果 
















ET 


根据 实际 的 经 济 意义 ， 我 们 可 以 找 出 每 个 类 别 中 城市 的 相似 之 处 ， 例 如 第 一 组 城市 的 共同 点 
的 人 均 工资 水 平 都 不 算 太 高 ， 而 房价 也 处 于 较 低 的 水 平 ， 而 第 四 组 包含 的 城市 较 多 ， 还 可 以 分 为 
两 小 类 ， 其 中 第 一 类 基本 上 都 是 一 线 城市 ， 北 京 、 上 海 等 属于 我 国 的 经 济 中 心 城市 ， 房 价 也 走 在 
全 国 的 前 列 ， 城 市 居民 收入 较 高 ， 具 有 一 定 的 购买 力 。 类 似 的 ， 对 其 他 组 别 的 城市 也 能 够 找 出 经 
济 上 的 共同 点 ， 以 此 为 基础 ， 国 家 宏观 调控 部 门 可 以 给 出 不 同城 市 应 当 采 取 的 房价 政策 。 
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时 间 序 列 分 析 及 R 实现 


追溯 到 7000 前 的 古 埃及 有 这 样 一 个 故事 : 古 埃 及 人 为 了 发 现 尼罗河 涨 落 的 规律 ， 将 尼罗河 
涨 落 的 情况 逐 天 记录 下 来 ， 发 现 每 年 天 狼 星 借 日 升 起 的 时 候 就 是 尼罗河 泛滥 的 开始 。 尼 罗 河 泛滥 
后 会 带 来 肥沃 的 泥土 ， 由 于 掌握 了 这 一 规律 ， 古 埃及 人 拥有 了 发 达 的 农业 。 这 是 时 间 序 列 分 析 最 
原始 的 应 用 ， 而 现代 时 间 序 列 分 析 主 要 是 从 经 济 领域 的 研究 中 发 展 起 来 的 ， 如 Granger、Engle 等 
经 济 学 家 都 是 运用 时 间 序 列 分 析 经 济 问题 而 获得 了 诺 贝 尔 经 济 学 奖 。 


时 间 序 列 分 析 是 一 种 动态 数据 处 理 的 统计 方法 ， 典 型 的 假设 是 相 邻 观 测 值 具有 某 种 依赖 性 ， 
从 而 基于 随机 过 程 理论 和 数理 统计 学 方法 ， 研 究 随机 数据 序列 所 遵从 的 统计 规律 。 


本 章 将 详细 介绍 时 间 序 列 分 析 在 R 中 的 实现 方法 ， 以 及 如 何 应 用 这 一 技术 做 预测 。 


13.1 时 间 序 列 的 基本 分 析 


任何 事物 都 处 于 不 断 的 发 展 变化 中 ， 为 了 研究 一 些 现象 随时 间 变 化 的 数学 规律 ， 我 们 把 某 种 
现象 发 展 变化 的 指标 数据 按照 一 定 的 时 间 顺 序 排 列 起 来 ， 就 形成 了 时 间 序 列 ， 可 以 用 { 民 ,} 表示。 


13.1.1 平稳 性 与 非 平稳 性 


时 间 序 列 的 平稳 性 是 建 模 最 重要 的 前 担 ， 有 严 平 稳 和 宽 平 稳 两 种 。 严 平稳 是 一 种 条 件 比 较 苛 
刻 的 平稳 性 定义 ， 其 认为 只 有 当 序列 所 有 的 统计 性 质 都 不 随时 间 的 推移 而 变化 时 ， 才 能 认为 序列 
是 平稳 的 。 用 数学 模型 表示 , 设 {X(?),te7} 是 一 个 随机 过 程 , 如 果 对 任意 的 n>1 和 ,ty,…,t, eT ， 
以 及 任意 实数 ,n 维 随 机 变量 { 半 (4), 半 (5),…, 基 (和 { 尘 ( 十 T), 关 (+7),…, 兰 (t+7)} 有 相同 
的 联合 分 布 函数 ， 即 


(a 2 ,2 ) ye tt 2 72) 
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而 宽 平稳 认为 序列 的 统计 性 质 由 它 的 低 阶 矩 决定 ， 所 以 只 要 保证 二 阶 矩 的 平稳 ， 就 能 保证 序 
列 的 主要 性 质 近似 平稳 。 设 {XX(),t eT} 是 一 个 随机 过 程 ， 如 果 它 满足 : 


QD 半 () 是 二 阶 矩 过 程 ; 
@ 均值 函数 为 常数 ，E[X(2)]= 4 ; 
@ 相关 函数 R(t,t) 仅 依赖 T= 一， 即 R(t,t)= ELX(4)X(t,)]=B(7) 


则 称 半 (1) 是 宽 平 稳 过 程 。 通 常 我 们 所 说 的 平稳 性 就 是 指 宽 平 稳 ， 而 实际 中 常见 的 时 间 序 列 一 般 
都 是 非 平稳 的 。 


在 实际 分 析 中 ， 我 们 通常 根据 图 形 来 检验 平稳 性 ， 最 常用 的 是 时 序 图 。 根 据 平稳 时 间 序 列 均 
值 为 常数 的 性 质 ， 平 稳 序列 的 时 序 图 应 始终 在 一 个 常数 值 附近 随机 波动 ， 并 且 波 动 的 范围 有 界 且 
无 明显 趋势 及 周期 特征 。 另 一 种 图 形 是 自 相关 图 ， 根 据 平稳 序列 的 短期 相关 性 质 ， 用 自 相关 系数 
来 反映 平稳 性 ， 就 是 随 着 延迟 期 数 的 增加 ， 平 稳 序列 的 自 相关 系数 会 迅速 衰减 至 零 。 


13.1.2”R 实现 的 基本 步骤 


用 尺 进 行 时 间 序 列 分 析 的 最 终 目的 是 预测 茶 种 现象 或 茶 个 指标 的 未 来 发 展 趋势 , 因此 建立 预 
测 模型 至 关 重 要 ， 用 R 实现 时 序 分 析 的 主要 步骤 是 : 


Q 将 原始 数据 读 入 到 R; 

@ 将 数据 存储 到 一 个 时 间 序 列 对 象 中 ; 

@ 用 这 些 数据 绘制 时 间 序 列 图 ; 

@ 分 解 时 间 序 列 〈 季 节 性 、 非 季节 性 ); 

@ 做 时 间 序 列 的 预测 。 有 多 种 预测 方法 ， 根 据 不 同类 型 的 数据 选择 适当 的 模型 。 


首先 ， 我 们 介绍 时 间 序 列 分 析 的 预 处 理 阶段 ， 即 前 3 个 步骤 。 将 数据 读 入 R 后 ， 生 成 时 间 序 
列 的 函数 是 0， 它 将 会 把 数据 存储 到 一 个 时 间 序 列 对 象 中 ， 调 用 格式 为 

ts (data = NA, start = 1, end = numeric()，fredquency = 1,deltat = 1, 

ts.eps = getOption("ts.eps"), class = , names = ) 

data 是 时 间 序 列 观 测 值 的 一 个 数值 向 量 或 矩阵 ， 数 据 框 将 通过 data.matrix 被 强制 转换 成 数值 
向 量 ，start 指定 收集 数据 的 第 一 年 及 第 一 个 间隔 期 ， 例 如 我 们 想 指 定 第 一 个 时 间 点 为 1986 年 二 
季度 ， 则 设置 start=c(1986,2); end 指定 时 间 序 列 的 终止 时 间 点 ， 有 些 时 间 序 列 数据 集 是 间隔 少 于 
一 年 的 数据 ， 如 月 度 或 季度 数据 ， 参 数 frequency 就 用 来 指定 数据 在 一 年 中 的 频数 。 例 如 月 度数 
据 设 置 为 frequency=12， 季 度数 据 设 置 为 frequency=4; deltat 表示 连续 观测 值 周期 的 分 数 ， 如 月 
度数 据 设置 为 /12， 可 以 发 现 ，frequency 和 deltat 是 倒数 关系 ， 只 需要 设置 一 个 即 可 ; names 为 
多 个 时 间 序 列 赋 名 称 。 


上 上 
Es tS (x) 
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as.ts0 将 对 象 转换 成 时 间 序 列 ; is.ts0 用 于 判断 对 象 是 否 为 时 间 序 列 。 


以 我 国 2002 年 1 月 至 2013 年 8 月 的 货币 供应 量 M1 的 数据 为 例 ， 先 在 R 中 读 入 原始 数据 ， 
再 用 函数 tg0 生 成 时 间 序 列 ， 由 于 是 月 度数 据 ， 所 以 需要 将 frequency 设 为 12， 同 时 给 出 起 始 时 间 
Start 。 


> data=read.table("d:/data/M1 .txt",header=T) 
> M=ts (data$M]1, frequency=12, start=c (2002,1)) 
>M 


Jan Feb Mar Apr May Jun Ja1 Aug sep Oct Nov Dec 
2002 60577 58704 59476 60462 61248 63145 63488 64870 66800 67101 67993 70882 
2003 72406 69757 71439 71322 72778 75924 76153 77033 79164 80267 80815 84119 
2004 83806 83556 85816 85604 86780 88627 86780 89125 90439 90782 92387 95971 
2005 97079 92815 94743 94594 95802 98601 97674 99378 100964 i01752 i104126 107279 
2006 107251 104357 106737 106389 109219 112342 112653 114846 116814 i118360 121645 126028 
2007 128484 126258 127881 127678 130276 135847 136237 140993 142592 144649 148010 152519 
2008 154873 150178 150867 151695 153345 154820 154992 156890 155749 157194 157827 166217 
2009 165214 166150 176541 178214 182026 193138 195889 200395 201708 207546 212493 221446 
2010 229589 224287 229398 233910 236498 240580 240664 24434 243822 253313 259420 266622 
2011 261765 259201 266255 266767 269290 274663 270546 273394 267193 276553 281416 289848 
2012 270010 270312 277998 274984 278656 287526 283091 285739 286788 293310 296883 308673 
2013 311229 296103 310898 307648 310204 313500 310596 314081 


可 以 发 现 ， 生 成 的 时 间 序 列 是 格式 整齐 的 数据 集 ， 使 用 函数 plot.ts0 绘 制 时 间 序 列 图 : 


> plot.ts (M) 


绘制 结果 如 图 13.1 所 示 。 
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图 13.1 时 间 序 列 图 


从 图 13.1 中 可 以 看 出 , 我 国 的 货币 供应 量 M1 是 具有 明显 趋势 的 时 间 序 列 ， 并 且 不 存在 明显 
的 季节 性 变动 。 为 了 对 接 下 来 各 月 的 数值 进行 预测 , 我 们 需要 对 时 间 序 列 做 进一步 的 分 解 和 建 模 。 
时 间 序 列 分 解 是 时 间 序 列 的 核心 内 容 ， 其 可 以 帮助 我 们 更 好 地 认识 和 掌握 现象 变化 发 展 的 规律 
性 ， 它 将 拟 合 出 的 茶 一 构成 因素 的 数值 从 时 间 序 列 中 分 离 出 去 ， 为 时 间 序 列 的 预测 葛 定 基础 。 


13.2 ”时 间 序 列 的 分 解 
每 一 个 现象 在 其 变化 发 展 过 程 中 ， 每 一 时 期 都 受到 各 种 因素 的 影响 ， 时 间 序 列 的 形成 就 是 这 
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些 因素 共同 作用 的 结果 ， 从 而 产生 不 同 的 变化 特点 ， 影 响 因素 主要 分 为 以 下 4 种: 


@ 长 期 趋势 (7T)。 时 间 序 列 随时 间 而 逐渐 增加 或 减少 的 变化 趋势 ， 受 某 种 长 期 的 决定 性 因 
素 影 响 。 
@ 季节 变动 (S$)。 时 间 序 列 在 一 年 中 或 固定 时 间 内 ， 呈 现 出 有 固定 规则 (周期 性 ) 的 重复 
变动 ， 一 般 是 由 于 受到 自然 条 件 或 社会 条 件 的 影响 而 形成 。 
@@ 循环 变动 (C)。 沿 着 趋势 线 如 钟 摆 般 循环 变动 ， 循 环 是 涨 落 相间 的 交替 波动 ， 比 如 经 济 
周期 。 
由 不 规则 变动 (e)。 时 间 序 列 由 于 受 随机 因素 影响 所 引起 的 变动 ， 没 有 规律 ， 由 临时 性 、 侦 
然 性 因素 引起 ， 例 如 受到 自然 灾害 等 不 可 抗力 的 影响 。 
时 间 序 列 可 以 表示 为 以 上 4 个 因素 的 函数 , 即 蕊 = 五 +8, +C,+e， 常 用 的 有 加 法 模型 和 乘法 
模型 : 
Y=T+S+C+e 
yar CYe 


加 法 模型 的 基本 假设 是 各 部 分 对 时 间 序 列 的 影响 相互 独立 ， 是 可 加 的 ;而 乘法 模型 假设 各 因 
素 对 序列 的 影响 不 是 相互 独立 的 。 有 些 数 据 的 量 级 很 大 ， 这 时 可 以 做 对 数 变换 ， 将 乘法 模型 转换 
为 加 法 模型 ， 其 不 仅 降 低 了 数量 级 ， 也 有 助 于 提高 预测 的 准确 性 。 


常见 的 时 间 序 列 主要 包括 3 个 部 分 : 整体 趋势 、 周 期 部 分 (季节 性 ) 和 噪声 。 接 下 来 我 们 介 
绍 如 何 用 R 软件 来 构造 分 解 模型 。 


13.2.1 分 解 非 季 节 性 数据 


非 季节 性 的 时 间 序 列 包含 一 个 长 期 趋势 部 分 和 一 个 不 规则 变动 部 分 ， 其 时 间 序 列 的 分 解 就 是 
试图 把 一 个 时 间 序 列 拆 分 成 这 些 部 分 ， 按 照 给 定 的 分 析 模 型 ， 估 计 出 趋势 成 分 和 不 规则 变动 的 有 具 
体 数 值 o 


为 了 估计 非 季 节 性 时 间 序 列 的 趋势 ， 使 用 加 法 模型 来 描述 ， 最 常用 的 方法 是 移动 平均 法 。 若 
时 间 序 列 的 各 部 分 是 乘法 关系 ， 先 通过 取 对 数 〈log) 来 转换 成 加 法 关系 。 移 动 平均 法 是 将 时 间 序 
列 的 时 距 扩 大 , 在 序列 中 按 一 定 项 数 逐 项 移动 计算 平均 数 , 从 而 达到 对 原始 序列 进行 修 匀 的 目的 ， 
形成 一 个 趋势 。 移 动 平 均 是 测定 时 间 序 列 趋势 变动 的 基本 方法 ， 有 简单 移动 平均 法 和 加 权 移动 平 
均 法 两 种 。 

简单 移动 平均 是 对 过 去 的 个 历史 数据 求 算术 平均 数 ， 作 为 以 后 的 趋势 预测 值 ， 因 此 t+1 时 
期 的 预测 值 可 以 表述 为 


已 = 一 2》 X 


k i={—k+l 
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简单 移动 平均 法 对 每 个 观测 值 都 给 予 相同 的 权 数 ， 而 加 权 移 动 平均 则 对 近期 和 远 期 的 观测 值 
根据 其 重要 性 赋予 不 同 的 权 数 后 再 做 预测 。 权 数 赋值 有 3 个 原则 : 


Q@ 时 间 序 列 的 波动 性 较 大 时 ， 近 期 的 观测 值 应 被 赋予 较 大 的 权 数 ， 远 期 观测 值 的 权 数 依次 
递减 ; 

@ 时 间 序 列 的 波动 性 一 般 时 ， 各 期 的 观测 值 的 权 数 应 相似 ; 

@ 各 期 的 权 数 之 和 必须 为 1。 


R 的 程序 包 TTR 中 的 函数 SMAO 和 函数 WMAO 可 分 别 实现 简单 移动 平均 和 加 权 平 均 法 ， 从 
而 平滑 时 间 序列 数据 ， 其 调用 格式 为 


SMA(RA B= 0 an) 
WMA(x, n = 10, wts = 1l:n, ...) 


其 中 x 是 时 间 序 列 对 象 ， 由 ts0 生 成 ， 参数 n 指定 移动 平均 的 跨度 ， 跨 度 越 大 ， 估 计 得 到 的 趋势 


部 分 越 平滑 ， wts 是 权重 向 量 ， 长 度 必须 等 于 x 或 n (默认 )。 使 用 这 两 个 函数 时 ， 一 定 要 注意 所 
有 字母 都 是 大 写 形式 。 


在 前 面 的 例子 中 ， 我 国货 币 供应 量 的 时 间 序 列 呈 现 非 季 节 性 ， 并 且 其 随机 变动 的 规律 在 整个 
期 间 内 是 大 致 不 变 的 ， 因 此 初步 判断 这 个 序列 可 以 被 描述 为 一 个 加 法 模型 。 我 们 使 用 简单 移动 平 
均 平 滑 来 估计 趋势 部 分 ， 首 先 尝 试 跨度 为 3 的 平滑 : 

> library (TTR) 


> M.SMA3=SMA (M, n=3) 
> plot (M. SMA3) 


绘制 的 图 形 如 图 13.2 所 示 。 
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图 13.2 跨度 为 3 的 简单 移动 平均 
使 用 跨度 为 3 的 简单 移动 平均 平滑 数据 之 后 ， 时 间 序 列 依然 包含 一 定 的 随机 波动 。 设 置 的 跨 
度 越 大 ， 简 单 移动 平均 法 提取 的 趋势 部 分 就 越 平滑 ， 而 正确 的 跨度 往往 是 在 反复 尝试 中 获得 的 。 
为 了 更 加 准确 地 估计 M 的 趋势 部 分 ， 我 们 再 使 用 跨度 为 5 的 简单 移动 平均 。 


> M.SMA5=SMA (M, n=5) 
> plot (M.SMAS) 


第 13 章 ”时间 序列 分 析 及 RR 实现 265 


绘制 的 图 形 如 图 13.3 所 示 。 
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图 13.3 ”跨度 为 5 的 简单 移动 平均 


可 见 ， 增 加 跨度 后 得 到 的 时 序 图 更 加 平滑 ， 去 除了 大 部 分 的 不 规则 波动 ， 趋 势 部 分 看 起 来 更 
加 清晰 。 可 以 发 现 我 国 的 货币 供应 量 M1 起 初 在 2002 年 不 到 100 000， 之 后 持续 增加 ， 直 到 2013 
年 超过 了 250 000。 


13.2.2 分 解 季节 性 数据 
季节 性 的 时 间 序 列 一 般 包含 一 个 趋势 部 分 、 一 个 季节 性 部 分 和 一 个 不 规则 部 分 。 为 了 分 解 出 
这 3 个 部 分 ， 同 样 可 以 采用 加 法 模型 来 描述 ， 通 过 移动 平均 线 完 成 分 解 。 
可 用 R 中 的 函数 decompose() 估 计时 间 序 列 的 趋势 、 季 节 性 和 不 规则 部 分 ， 其 调用 格式 为 : 
decompose (x, type = cl("additive", "multiplicative"), filter = NULL) 
x 是 时 间 序 列 对 象 ; type 指定 季节 分 解 的 形式 , 选择 加 法 模型 还 是 乘法 模型 ; filter 是 滤波 系数 。 
用 了 表示 趋势 ，$ 表示 周期 ，e 表示 噪声 ，type=“additive” 表 示 时 间 序 列 可 以 分 解 为 加 法 模型 
7(D) =T(D+SCOD+e() 
type=“mnultiplicative” 表 示 乘 法 模型 
7(D =T(D*SG+e 人 GD 
decompose() 返 回 的 结果 是 一 个 列表 ， 其 中 元 素 x 是 原始 数据 ; 其 他 元 素 包 含 估计 出 的 季节 性 


部 分 、 趋 势 部 分 和 不 规则 部 分 ， 分 别 对 应 名 称 “seasonal”“trend” 和 “random”。 直 接 使 用 函数 
plotO 对 返回 的 结果 绘图 就 可 以 分 别 画 出 时 间 序 列 中 的 趋势 、 季 节 性 和 不 规则 部 分 。 


下 面 以 某 企业 近年 来 的 销售 数据 为 例 ， 年 销售 额 逐年 增加 ， 但 企业 销售 的 产品 具有 季节 性 ， 
数据 如 表 13.1 所 示 (单位 : 万 元 )。 


表 13.1 某 企业 2004 一 2009 年 各 季度 销售 额 


一 季度 


2004 362 385 432 341 
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将 数据 输入 到 R 中 , 并 转换 成 时 间 序 列 , 首先 通过 画图 (如 图 13.4 所 示 ) 来 观察 序列 的 特征 。 


> data=c (362,385,432,341,382, 409,498,387, 

十 473,513,582,474, 544,582,681,557, 

+ 628,7107,713;592,627,725,854,661) 

> sales=ts (data, frequency=4, start=c (2004,1)) 
> plot.ts (sales) 


sales 
600 800 


400 
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Time 
图 13.4 季节 性 时 间 序 列 图 


从 图 13.4 中 可 以 看 到 数据 呈现 明显 的 季节 性 ， 销 售 额 逐 年 增长 也 说 明 具 有 趋势 性 ， 使 用 函数 
decompose() 分 解 趋势 、 季 节 和 随机 波动 三 部 分 。 
> components=decompose (sales) 
> options (digits=3) # 显 示 小 数 点 后 3 位 有 效 数字 
> components$seasonal # 季 节 性 部 分 
OErl OLEZ2 OLS QEPA 


2004 -23.2 14.6 73.4 -64.8 
2005 =23.2 14.6 73.54. 一 64.8 
2006| =23,.2" L456 T3416438 
2007 -23.2 14.6 73.4 -64.8 
2008 -23.2 14.6 73.4 -64.8 
2009 -23.2 14.6 73.4 -64.8 


直接 对 components 使 用 函数 plot0 画 出 估计 的 时 间 序 列 趋势 、 季 节 性 和 不 规则 部 分 。 


> plot (components) 


绘制 结果 如 图 13.5 所 示 。 


randomseasonal trend observed 
-40 -10 29060 0 6000 600 400 700 
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Decomposition of additive time series 
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图 13.5 季节 性 时 间 序 列 的 分 解 


图 13.5 中 包含 了 4 部 分 : 从 上 向 下 第 一 个 图 是 原始 的 时 间 序 列 观测 值 ; 第 二 个 图 是 估计 出 的 
趋势 部 分 ， 第 三 个 图 是 估计 出 的 季节 性 部 分 ; 最 后 一 个 是 估计 出 的 随机 波动 。 每 年 的 销售 额 在 前 
3 个 季度 逐次 上 升 ， 而 第 四 季度 出 现下 降 。 


函数 st0 也 可 以 用 于 分 解 周期 性 时 间 序 列 ， 它 使 用 Loess 方法 ， 计 算 方式 更 加 复杂 。 它 的 调 


用 格式 为 


stl(x, s.window, s.degree = 0,...) 


其 中 x 是 ts0 返 回 的 时 间 序 列 对 象 ，s.window 为 字符 串 “periodic” 或 Loess 方法 提取 季节 的 跨度 ， 
应 为 奇数 值 ， 要 注意 这 一 参数 没有 默认 值 ，s.degree 是 局 部 多 项 式 拟 合 季节 性 提取 的 程度 ， 取 值 
为 0 或 1。stl0 返 回 的 提取 结果 包括 周期 、 趋 势 和 噪声 3 个 部 分 的 分 解 值 。 


> componentsl=stl (sales,s.window="periodic") 


> componentsl 


Call: 


stl(x = sales, 


Components 

seasonal trend 
2004 Q1 -25.4 373 
2004 Q2 10.4 378 
2004 Q3 82.4 383 
2005 Q4 -67.4 389 
2005 01 -25.4 400 
2005 0Q2 10.4 412 
2006 Q3 82.4 429 
2006 Q4 -67.4 455 


Ss.window = "periodic") 


remainder 
14.019 
=35160 
=331586 
19.711 
6.933 
-13,.145 
-13.073 
-0.556 
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同样 利用 函数 plotO 绘 图 ， 
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以 及 残 差 的 自 相关 图 。 


> plot (components1) 


绘制 结果 如 图 13.6 所 示 。 
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L187:339 
2.819 
=P8370 
4.416 
10.647 
-8s587 
-2.274 
-2.745 
=] 910 
23;593 
13.985 
-15.433 
=335921 
S5293 
40.386 
-26.049 


得 到 的 4 个 部 分 分 别 是 原始 时 间 序 列 图 、 季 节 性 部 分 、 趋 势 部 分 





图 13.6 季节 性 时 间 序 列 的 分 解 


13.3 ”指数 平滑 法 预测 分 析 


时 间 序列 分 解 是 对 于 一 个 时 间 序 列 数 据 的 信息 提取 ， 接 下 来 的 预测 主要 使 用 平滑 法 完成 ， 它 
的 基本 思想 是 移动 平均 。 计 算 移动 平均 值 时 需要 使 用 过 去 观察 值 ， 并 且 要 在 开始 时 就 明确 规定 。 
每 出 现 一 个 新 的 观察 值 , 就 要 从 移动 平均 中 减 去 一 个 时 间 最 远 的 观察 值 , 再 加 入 一 个 最 新 观察 值 ， 
计算 移动 平均 ， 这 一 新 的 移动 平均 值 就 作为 下 一 期 的 预测 值 。 
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接 下 来 我 们 介绍 3 种 可 以 在 R 语言 中 实现 的 指数 平滑 方法 ， 它 们 分 别 是 简单 指数 平滑 法 (1 
个 参数 )、Holt 双 参 数 线性 指数 平滑 法 (2 个 参数 ) 和 Winters 线性 和 季节 性 指数 平滑 法 (3 个 参 
数 )。 看 到 这 3 种 方法 的 名 称 ， 可 能 很 多 人 会 认为 它们 的 模型 非常 复杂 难 懂 ， 但 事实 上 ， 这 3 个 
方法 的 原理 是 一 样 的 ， 都 基于 移动 平均 的 思想 ， 只 是 参数 个 数 设置 不 同 ， 适 用 于 不 同类 型 的 数据 
而 已 。 读 者 不 要 事先 被 它们 一 长 串 的 名 字 吓 住 ， 这 一 节 我 们 将 详细 介绍 它们 的 模型 以 及 在 R 中 实 
现 的 办 法 ， 读 完 之 后 你 会 发 现 ， 其 实 指数 平滑 的 原理 很 容易 理解 。 


在 R 中 实现 这 3 个 方法 只 需 一 个 相同 的 函数 一 一 HoltWinters() 就 可 以 完成 ， 我 们 首先 了 解 一 





下 它 的 调用 格式 
HoltWinters(x, alpha = NULL, beta = NULL, gamma = NULL, 
seasonal = c("additive", "multiplicative"),start.periods = 2, 


l.start = NULL, b.start = NULL, s.start = NULL, 

optim.start = c(alpha = 0.3, beta = 0.1, gamma = 0.1), optim.control = list()) 
其 中 ，x 是 ts0 时 间 序 列 对 象 ; alpha、beta 和 gamma 是 Holt-Winters 模型 的 过 滤 系 数 ， 若 gamma 
设置 为 FALSE， 则 拟 合 非 季 节 性 模型 ， 若 beta 也 设置 为 FALSE， 则 该 函数 将 做 简单 指数 平滑 ; 
seasonal 选择 分 解 模型 是 加 法 模型 还 是 乘法 模型 ;start.periods 是 初始 时 期 ， 用 于 初始 值 的 自动 检 
测 ， 必 须 大 于 或 等 于 2; 1.start、b.start 和 s.start 分 别 表示 水 平 、 趋 势 和 季节 部 分 的 初始 值 ;其 他 
详细 信息 参见 R 帮助 文档 。 在 下 面 的 介绍 中 ， 我 们 还 将 详细 地 讲述 不 同方 法 下 如 何 设置 参数 ， 以 
及 HoltWinters() 生 成 的 结果 。 


13.3.1 简单 指数 平滑 法 


简单 指数 平滑 法 适用 于 对 一 个 可 用 加 法 模型 描述 的 ， 处 于 恒定 水 平 并 且 没 有 季节 性 变动 的 时 
间 序 列 进行 短期 预测 ， 也 称 为 一 次 指数 平滑 ,“ 处 于 恒定 水 平 ”说 明 数 据 应 当 具 有 平稳 性 。 它 提 
供 了 一 种 方法 来 估计 当前 时 点 的 数值 ， 用 前 一 期 的 预测 值 代替 Xx,_,, ， 得 到 预测 的 通 式 为 


ha = QX, 三 U 让 oa)F, 


由 一 次 指数 平滑 法 的 通 式 可 见 : 一 次 指数 平滑 法 是 一 种 加 权 预 测 ， 权 数 为 & 。 它 不 需要 存储 
全 部 历史 数据 ， 从 而 可 以 大 大 减少 数据 存储 问题 ， 甚 至 有 时 只 需 一 个 最 新 观察 值 、 最 新 预测 值 和 
Q， 就 可 以 进行 预测 。 它 提供 的 预测 值 是 前 一 期 预测 值 加 上 前 期 预测 值 中 产生 的 误差 的 修正 值 。 
由 参数 cx 控制 平滑 ， 取 值 为 0~1 之 间 。 


在 R 中 使 用 简单 指数 平滑 法 进行 短期 预测 ， 我 们 需要 使 用 函数 HoltWinters(), 将 函数 中 的 参 
数 设 置 为 beta=FALSE 和 gamma=FALSE (因为 beta 和 gamma 是 Holt 指数 平滑 法 或 Winters 指 
数 平滑 法 的 参数 )。 在 简单 指数 平滑 法 中 常用 时 间 序 列 的 第 一 个 值 作为 水 平 的 初始 值 ， 可 以 通过 
参数 1.start 指定 其 初始 值 。 


HoltWinters0 默 认 仅 给 出 在 原始 时 间 序 列 所 覆盖 时 期 内 的 预测 ， 它 返回 一 个 变量 列表 ， 将 生 
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成 的 预测 值 存储 在 变量 fitted 中 ， 原 始 序列 覆盖 时 期 内 的 预测 误差 平方 和 存储 在 变量 SSE 中 。 得 
到 预测 结果 后 ， 用 函数 plotO 直 接 绘制 原始 数据 和 预测 值 的 图 像 ， 从 而 观察 预测 的 效果 。 


HoltWinters0 默 认 仅 给 出 原始 时 期 的 预测 值 ， 但 既然 是 “预测 ” 我 们 更 希望 通过 构造 的 模型 
去 预测 未 来 ， 这 时 需要 用 到 R 程序 包 forecast (安装 它 之 前 还 需要 安装 一 个 程序 包 fracdiff) 中 的 
函数 forecast() 或 forecast.HoltWinters() 进 行 更 远 时 间 点 上 的 预测 ， 它 可 以 直接 调用 HoltWinters0 
返回 的 预测 模型 对 象 ( 存 储 在 一 个 变量 中 )， 调 用 格式 为 


forecast (object, h, level=c(80,95), fan=FALSE, ...) 


object 即时 间 序 列 模型 的 对 象 ; 参数 h 指定 预测 时 期 的 个 数 ; level 指定 预测 区 间 的 置信 水 平 ， 
默认 给 出 80% 和 95% 的 预测 区 间 ; fan 若 为 TRUE， 将 绘制 扇形 图 。 


简单 指数 平滑 法 应 用 的 时 间 序 列 对 象 应 该 是 平稳 的 ， 所 以 我 们 选取 一 个 平稳 时 间 序 列 数据 在 
R 中 做 短期 预测 。 网 页 数据 http://robjhyndman.com/tsdldata/hurst/precip1.dat 是 一 个 dat 文件 ， 其 中 
包含 1813 一 1912 年 这 100 年 间 伦敦 每 年 的 降雨 量 〈 单 位 : 英尺 )， 它 是 一 个 平稳 的 时 间 序 列 ， 使 
用 函数 scan(0) 读 入 文件 的 数据 ， 并 绘制 时 序 图 来 查看 它 的 平稳 性 。 在 R 中 输入 指令 : 

>data=scan ("http://robjhyndman.com/tsdldata/hurst/precipl.dat", skip=1) 

#Skip=1 表示 跳 过 第 一 行 ( 基本 信息 ) 再 开始 读 入 数据 

Read 100 items 

> rain=ts (data, start=1813) #start 设置 时 间 序 列 从 1813 年 开始 

> plot.ts (rain) # 画 时 序 图 


绘制 的 图 形 如 图 13.7 所 示 。 


rain 
20 25 130 35 


1820 1840 1860 1880 1900 


Time 


图 13.7 平稳 序列 的 时 间 序 列 图 


从 数据 的 时 间 序 列 图 中 可 以 看 出 ， 曲 线 在 25 英尺 左右 的 水 平 上 下 波动 ， 且 没有 明显 的 趋势 
性 和 季节 性 ， 可 以 认为 其 是 大 致 平稳 的 。 而 随机 波动 在 整个 时 间 序 列 期 间 也 没有 明显 的 增加 或 减 
少 ， 可 以 用 加 法 模型 去 描述 时 间 序 列 ， 因 此 这 个 数据 的 预测 应 选用 简单 指数 平滑 法 。 模 型 中 只 包 
含 参 数 w ， 所 以 及 语言 代码 应 写 为 : 


> rain.pre=HoltWinters (rain,beta=FALSE, gamma=FALSE) 
> rain.pre 
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Holt-Winters exponential smoothing without trend and without seasonal component. 
Gall: 
HoltWinters (x = rain, beta = FALSE, gamma = FALSE) 


Smoothing parameters: 
alpha: 0.02412151 
beta : FALSE 

gamma: FALSE 


Coefficients: 
[+1] 
a 24.67819 


函数 HoltWinters() 输 出 的 对 象 rain.pre 是 一 个 变量 列表 ， 可 以 得 到 C 的 参数 估计 是 0.0241。 


没有 明确 设置 参数 1.start， 那 么 函数 将 默认 以 第 一 个 时 间 点 1813 年 的 数值 作为 预测 的 初始 水 平 ， 


对 1814 一 1912 年 降雨 量 所 做 的 预测 结果 存储 在 rain.pre$fitted 中 。 接 下 来 用 plotO 绘 制 原始 时 间 序 
列 和 预测 值 的 对 比 图 。 


> plot (rain.pre) 


绘制 的 图 形 如 图 13.8 所 示 。 


Holt-Winters filtering 


Observed /Fitted 
20 25 30 35 





图 13.8 ”原始 时 间 序 列 和 预测 值 的 时 序 图 


图 13.8 中 波动 幅度 较 大 的 曲线 是 原始 时 间 序 列 的 图 像 ， 而 中 间 较 为 平缓 的 曲线 是 预测 数值 。 
由 于 预测 值 是 不 包含 随机 波动 的 ， 因 此 要 比 原始 值 的 时 序 图 平滑 很 多 ， 它 主要 反映 平稳 时 间 序 列 
的 恒定 水 平 。 图 像 直 观 地 帮助 我 们 观察 预测 效果 ， 而 统计 的 严谨 性 要 求 我 们 给 出 一 个 数值 作为 预 
测 效果 的 准确 计量 ， 所 以 我 们 要 计算 样本 内 预测 误差 〈 即 残 差 ) 的 平方 和 SSE。 


> rain.pre$SsE 
[1 1828.855 


这 个 结果 说 明 ， 我 们 用 简单 指数 平滑 法 做 数据 预测 的 误差 平方 和 是 1828.855。 


对 时 间 序 列 建 模 的 最 终 目 的 还 是 为 了 做 今后 时 点 的 预测 。 函 数 HoltWintersO 给 出 时 间 序 列 的 
模型 后 ， 下 一 步 我 们 要 利用 R 程序 包 forecast 中 的 函数 forecast.HoltWinters() 做 未 来 的 短期 预测 ， 
它 直接 调用 上 面 HoltWinters() 输 出 的 对 象 rain.pre。 我 们 来 预测 未 来 10 年 的 降雨 量 ,设置 参数 h=10。 
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> library (forecast) 
This is forecast 4.06 
> rain.pre2=forecast.HoltWinters (rain.pre, h=10) 


预测 的 结果 已 经 保存 在 变量 rain.pre2 中 了 ,最 后 用 函数 plot() 或 plot.forecast0) 绘 制 预测 结果 图 : 
> plot.forecast (rain.pre2, col=2) 
绘制 的 图 形 如 图 13.9 所 示 。 


Forecasts from HoltWinters 


20 25 30 35 





1820 1840 1860 1880 1900 1920 


图 13.9 简单 指数 平滑 预测 图 


对 pre.rain2 绘图 可 以 得 到 两 部 分 : 图 13.9 左 侧 上 下 波动 的 曲线 表示 原始 数据 的 时 序 图 ; 
13.9 右 侧 的 阴影 表示 未 来 10 年 的 预测 结果 ， 中 间 的 粗 线条 表示 未 来 10 年 的 降水 量 水 平 ， 深 色 阴 
影 区 域 为 置信 水 平 为 80% 的 预测 区 间 ， 浅 灰色 阴影 为 95% 的 预测 区 间 。 


13.3.2 ” 残 差 的 白 噪 声 检验 


通过 某 种 方法 对 时 间 序 列 建 模 后 ， 很 多 人 不 禁 会 问 ， 这 个 模型 的 效果 如 何 ? 是 否 能 够 用 来 预 
测 未 来 时 点 的 变化 呢 ? 与 回归 分 析 类 似 ， 判 断 时 间 序 列 模 型 拟 合 效 果 的 重要 指标 也 是 残 差 。 残 差 
是 样本 内 的 预测 误差 ， 用 每 个 时 点 上 的 观测 值 减 去 预测 值得 到 。 在 动态 的 时 间 序列 模型 中 ， 我 们 
假设 残 差 是 服从 白 噪 声 分 布 的 ， 即 


人 ~N(0,0” ) 


简单 来 说 ， 就 是 残 差 序列 是 期 望 和 方差 均 为 常数 的 正 态 分 布 随机 数 ， 是 一 个 纯 随 机 过 程 。 对 
于 一 个 拟 合 效果 好 的 时 序 模型 ， 上 述 假设 是 成 立 的 ， 因 为 模型 包含 了 序列 大 部 分 的 信息 ， 剩 下 的 
残 差 仅 体现 随机 扰动 。 


(1) 相关 图 检验 

白 噪 声 的 检验 方法 有 很 多 种 , 首先 介绍 最 直观 的 相关 图 检验 方法 。 预测 残 差 若是 白 噪声 序列 ， 
那么 彼此 独立 ， 序 列 中 应 该 不 存在 显著 的 自 相 关 ， 所 以 自 相关 图 是 白 噪 声 检验 的 直接 方式 ， 我 们 
结合 上 面 的 实例 来 说 明 如 何 利用 图 形 判 断 残 差 是 否 存在 自 相 关 性 。 在 伦敦 降雨 量 的 例子 中 ， 函 数 
forecast.HoltWinters() 返 回 的 样本 残 差 存放 于 变量 residuals 中 ， 如 果 简 单 指数 平滑 预测 模型 的 拟 合 
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效果 很 好 ， 那 么 预测 残 差 是 不 相关 的 。 
R 语言 中 的 函数 acfO 可 以 计算 残 差 并 绘制 自 相关 图 : 


acf (x, lag.max = NULL, type = cl("correlation", "covariance", "partial"), 
Plot = TRUE, na.action = na.fail, demean = TRUE, ...) 


x 是 时 间 序 列 对 象 ; 参数 lag.max 指定 计算 自 相 关 的 最 大 滞后 阶 数 , 默认 值 为 10*logio(CV/za) ， 
NN 代表 观测 值 个 数 ，m 代表 序列 个 数 ，type 指定 计算 自 相 关系 数 的 方式 ， 默 认为 “correlation ”; 
plot 是 逻辑 值 ， 指 示 是 否 绘制 自 相 关 图 ， 默 认为 TRUE (绘图 )。 


例如 ， 绘 制 伦敦 降雨 量 延 迟 20 阶 的 残 差 自 相关 图 ， 在 R 中 输入 指令 : 


> acf (rain.pre2$residuals, lag.max=20) 


绘制 结果 如 图 13.10 所 示 。 


Series rain.pre2$residuals 


1.0 


ACF 
02- 06 


-02 


Lag 
图 13.10 ” 残 差 自 相关 图 
自 相 关 图 中 的 两 条 虚线 表示 置信 界限 ， 是 自 相 关系 数 的 上 下 限 。 如 果 自 相关 系数 迅速 衰减 ， 
落 入 边界 内 ， 就 可 能 是 白 噪 声 ; 若 超过 边界 ， 表 示 存 在 相关 关系 ， 在 哪 期 开始 落 入 虚线 内 ， 就 是 


自 相关 的 阶 数 。 在 本 例 的 自 相关 图 中 ， 所 有 阶 的 自 相 关系 数 都 落 入 了 置信 界限 内 ， 我 们 初步 判断 
残 差 序列 是 不 存在 自 相 关 的 。 


(2) Liung-Box 检验 〈Q 统计 量 ) 
当然 ， 自 相关 图 分 析 只 能 体现 图 形 效果 ， 而 我 们 的 判断 有 时 会 受 主观 影响 。 为 了 更 精确 地 验 
证 残 差 自 相关 在 统计 上 是 否 显著 ,需要 使 用 Ljung-Box 检验 。 它 的 检验 基于 0 统计 量 ， 由 Box 和 


Pierce 在 1970 年 提出 ， 所 以 称 为 Ljung-Box 检验 。 检 验 的 原 假设 为 给 定时 间 序 列 的 x 阶 自 相关 为 
零 ， 即 是 独立 的 ， 表 示 为 


Ho:p=p,=…=p,=0 A 有 :3igm, 使 p, #0 
检验 统计 量 由 残 差 序列 的 自 相 关系 数 计 算得 到 ， 即 
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QO=n(n+D DA ~ xp 


在 原 假设 成 立 的 条 件 下 ，2@ 近似 服从 自由 度 为 大 的 卡 方 分 布 ， 它 可 以 对 小 样本 给 出 更 好 的 卡 
方 近似 。 如 果 2 统计 量 大 于 特定 的 临界 值 ， 那 么 滞后 磊 阶 的 自 相关 可 能 显著 不 等 于 零 ， 说 明 被 检 
验 序列 不 是 独立 和 随机 的 。 

这 可 以 通过 R 中 的 函数 Box.testO 实 现 ， 调 用 格式 为 

Box .test (x, lag = 1, type = c("Box-Pierce", "Ljung-Box"), fitdf = 0) 

x 是 检验 的 时 间 序 列 ; lag 指定 计算 相关 系数 的 最 大 阶 数 ， 参 数 type 指明 检验 类 型 ， 这 里 是 
“Ljung-Box”; fitdf 指明 自由 度 。 若 检验 结果 的 尸 值 较 大 ， 则 不 能 说 明 残 差 是 自 相 关 的 。 

> Box.test (rain.pre2$residuals,1ag=20,type="Ljung-Box") 

Box-Ljung test 


data: rain.pre2$residuals 
X-squared = 17.4008, df = 20, p-value = 0.6268 


用 检验 结果 的 P 值 判断 ， 由 于 P=0.6268， 故 不 能 拒绝 原 假设 ， 所 以 没有 充分 的 理由 说 明 残 差 
序列 是 自 相关 的 。 经 过 自 相 关 图 和 Ljung-Box 检验 ， 可 以 判断 残 差 序 列 体 现 的 是 随机 波动 ， 因 此 
简单 指数 平滑 法 对 伦敦 降雨 量 数据 的 拟 合 效果 很 好 。 

(3) 其 他 方法 

用 R 检验 残 差 的 方法 有 很 多 种 ， 这 里 我 们 再 简单 介绍 几 种 常用 的 检验 。 

@ Durbin-Watson 检验 。 简 称 DW 检验 ， 它 是 由 JJDurbin 和 G.S.Watson 在 1951 年 提出 的 一 
种 适用 于 小 样本 的 检验 方法 ， 只 能 用 于 检验 随机 误差 项 具有 一 阶 自 回归 形式 的 序列 相关 问题 。R 
中 实现 的 函数 是 程序 包 car 中 的 durbin.watson()。 

@ 游程 检验 。 检 验 的 原 假设 为 游程 是 随机 的 ， 而 备 择 假设 为 游程 是 递增 的 (或 递减 )， 检 验 
基于 游程 的 频率 。 若 忆 值 较 大 ， 则 没有 足够 的 理由 拒绝 原 假设 ,说 明 游程 是 随机 的 。R 中 实现 的 
函数 是 程序 包 tseries 中 的 函数 runs.test(。 


我 们 对 13.3.1 节 和 13.3.2 节 的 内 容 做 一 个 简单 的 小 结 , 可 以 总 结 出 在 R 中 进行 简单 指数 平滑 的 
步 又 是 : 
Q@ 通过 函数 HoltWinters0 对 时 间 序列 对 象 建立 模型 ， 得 到 对 原始 时 间 序 列 所 攻 盖 时 期 的 预测 ， 
@ 绘制 原始 值 和 和 预测 值 的 对 比 图 ; 
@ 根据 模型 对 未 来 时 点 进行 预测 ; 
@ 作 残 差 的 白 噪 声 检 验 ， 以 判断 模型 的 预测 效果 。 
上 述 步骤 同样 适用 于 下 面 要 介绍 的 其 他 两 种 指数 平滑 法 。 
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13.3.3 ”Holt 指数 平滑 法 


如 果 一 个 时 间 序 列 有 增长 或 降低 趋势 、 非 季节 性 并 可 以 用 加 法 模型 描述 ， 那 么 应 该 选取 Holt 
双 参 数 线性 指数 平滑 法 〈 简 称 Holt 指数 平滑 法 ) 做 短期 预测 。Holt 指数 平滑 法 估计 当前 时 间 点 的 
水 平和 和 斜率， 直接 对 趋势 进行 平滑 。 计 算 公式 为 
A =5S,+bm 
S,=Qx,+(l—-a)(S,,+b,) 
b, B(S, -5 )+(1 —pB)b,, 


第 二 个 等 式 是 利用 前 一 期 的 趋势 值 b,| 直接 修正 S$,, 而 趋势 项 b 用 相 邻 两 次 平滑 值 之 差 来 计 
算 。Holt 指数 平滑 是 由 两 个 参数 控制 的 ，& 的 作用 体现 在 估计 当前 时 间 点 的 水 平 ，B 用 于 估计 当 
前 时 间 点 趋势 部 分 的 斜率 。 正 如 简单 指数 平滑 法 一 样 ，Q& 和 参数 都 介 于 0 和 1 之 间 ， 并 且 参 数 
越 接近 1， 表 示 近 期 的 观测 值 在 预测 中 占据 更 大 的 权重 。 


在 R 中 使 用 函数 HoltWinters0 做 Holt 指数 平滑 ， 设 置 参数 gamma=FALSE， 因 为 gamma 是 
Winters 指数 平滑 法 的 参数 。 参 数 1.start 和 b.start 分 别 设 置 水 平和 趋势 斜率 的 初始 值 ， 通 常 水 平 的 
初始 值 就 是 其 时 间 序 列 的 第 一 个 值 ， 而 斜率 的 初始 值 是 第 二 个 值 减 去 第 一 个 值 。 


有 具体 的 分 析 步 骤 与 简单 指数 平滑 法 一 致 : 首先 ， 使 用 HoltWinters0 进 行 Holt 指数 平滑 后 ， 对 
返回 的 对 象 应 用 函数 plot0， 可 以 直接 绘制 出 原始 值 与 预测 值 的 图 形 ， 便 于 比较 ; 第 二 步 ， 预 测 
未 来 时 点 的 值 ; 最 后 ， 检 验 模型 的 效果 ， 创 建 一 个 相关 图 并 进行 Liung-Box 检验 分 析 残 差 是 否 为 
白 噪 声 。 

在 13.1.2 节 中 我 们 知道 ， 我 国货 币 供应 量 Ml 的 数据 就 是 一 个 具有 递增 趋势 、 无 明显 季节 性 
的 时 间 序 列 ， 因 此 对 M1 的 短期 预测 可 以 通过 Holt 指数 平滑 法 完成 。 

> data=read.table("d:/data/M1 .txt",header=T) 

> M=ts (data$M]1, frequency=12, start=c(2002,1)) 

> M.pre=HoltWinters (M, gamma=FALSE) 

> M.pre 

Holt-Winters exponential smoothing with trend and without seasonal component. 


Call: 
HoltWinters(x = M, gamma = FALSE) 


Smoothing parameters: 
alpha: 0.6630848 
beta : 0.125953 
gamma: FALSE 


Coefficients: 
[,1] 
a 314043.669 
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b 1783.969 


可 以 得 到 Holt 指数 平滑 模型 中 参数 C 的 估计 值 是 0.663，C 的 估计 值 是 0.126, 绘图 对 比 Holt 
平滑 对 原始 数据 的 预测 效果 , 将 函数 plot0 作 用 于 对 和 象 M.pre 上 , 可 分 别 绘 制 出 原始 时 间 序 列 和 预 
测 值 序列 两 条 曲线 ， 如 图 13.11 所 示 。 


> plot (M.Pre) 
Holt-Winters filtering 
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图 13.11 MI 原始 值 和 预测 值 的 时 序 图 
从 图 形 效 果 来 看 , 原始 数据 和 预测 值 的 差别 不 大 , 但 近 几 年 的 预测 值 与 实际 值 之 间 波 动 较 大 ， 
模型 中 B 的 估计 值 是 0.126， 说 明 近 期 数据 在 预测 中 所 占 比重 较 小 ， 这 也 可 以 从 侧面 解释 最 近 几 
年 的 预测 有 些 出 入 的 原因 。 下 一 步 使 用 程序 包 forecast 中 的 函数 forecast.HoltWinters() 预 测 未 来 5 
年 (20 个 季度 ) M1 的 值 ， 并 用 函数 plot.forecast(0) 绘 制 预测 结果 图 。 


> M.pre2=forecast .HoltWinters (M.pre,h=20) #20 个 季度 ， 所 以 h=20 
> plot.forecast (M.pre2) 


绘制 结果 如 图 13.12 所 示 。 
Forecasts from HoitWinters 
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图 13.12 未 来 5 年 M1 的 预测 图 


右上 角 的 阴影 部 分 显示 预测 结果 , 区域 中 间 较 粗 的 曲线 为 未 来 20 个 时 点 我 国 M1 的 点 估计 值 ， 
深 色 阴影 是 置信 水 平 为 80% 的 预测 区 间 ， 浅 色 阴影 为 90% 预 测 区 间 。 


最 后 ， 为 检验 模型 的 预测 效果 ， 我 们 检验 残 差 序列 是 否 可 以 通过 白 噪声 检验 。 


> acf (M.pre2$residuals, lag.max=10) 
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绘制 图 形 如 图 13.13 所 示 。 
Series M.pre2$residuals 
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图 13.13 MI 预测 模型 的 残 差 自 相 关 图 
从 自 相 关 图 可 以 看 出 第 6 和 第 8 阶 自 相 关系 数 稍微 超过 了 置信 界限 ， 说 明 残 差 序列 有 一 定 的 
自 相 关 性 ， 我 们 还 需要 借助 Liung-Box 检验 来 做 最 后 的 判断 。 
> Box .test (M.pre2$residuals,1ag=10, type="Ljung-Box") 
Box-Ljung test 


data: M.pre2$residuals 
X-squared = 22.1802, df = 10, p-value = 0.01421 


检验 的 P 值 为 0.01， 在 0.05 的 显著 性 水 平 下 可 以 拒绝 原 假设 ， 说 明 残 差 序 列 存在 自 相 关 性 ， 
Holt 指数 平滑 法 提取 的 时 间 序 列 信息 并 不 完全 。 
13.3.4 ”Winters 指数 平滑 法 


如 果 一 个 时 间 序 列 具 有 增长 或 降低 趋势 ， 存 在 季节 性 ， 并 且 可 以 用 加 法 模型 描述 ， 那 么 我 们 
就 可 以 利用 Winters 线性 和 季节 性 指数 平滑 法 (简称 Winters 指数 平滑 法 ) 对 其 进行 短期 预测 。 
Winters 指数 平滑 法 用 于 估计 当前 时 点 的 水 平 、 斜 率 和 季节 性 三 个 部 分 ， 


Ee =(S, +bm)l, 


—L+m 

其 中 工 为 季节 的 长 度 ，7 为 季节 修正 系数 。 

利用 3 个 方程 式 , 每 个 方程 式 都 用 于 平滑 模型 的 3 个 组 成 部 分 (平稳 的 、 趋 势 的 和 季节 性 的 )， 
且 都 包含 一 个 相关 参数 。 


S, =2 了 +(-G)(SL +b,1), 0<a<l 


1=L 


b=pB(S,—S,1)+(1-B)b,,, 0<B<1 


L = + 7) hs 0<y<l 
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平滑 依靠 3 个 参数 来 控制 ,， 即 & 、 和 7 ， 它们 分 别 对 应 当前 时 点 的 水 平 、 趋 势 部 分 的 斜率 


和 季节 性 部 分 。 参 数 的 取 值 都 在 0~1 之 间 ， 取 值 越 接近 于 1 说 明 近 期 观测 值 在 预测 中 占据 的 权重 
越 大 。 


在 R 中 实现 Winters 指数 平滑 法 与 前 两 种 平滑 方法 具有 相同 的 步骤 ， 只 是 使 用 函数 
HoltWinters0 建 立 模 型 时 ， 参 数 alpha、beta 和 gamma 均 使 用 默认 值 TRUE。 


我 们 对 13.2.2 节 中 的 季节 性 时 间 序 列 数据 企业 销售 额 ， 做 Winters 指数 平滑 ， 在 R 中 输入 
指令 : 


> data=c (362, 385,432, 341, 382, 409, 498, 387, 

+ 473,513,582,474,544,582, 681,557, 

十 6287707v773 59276277725，8547 石 61) 

> sales=ts (data, frequency=4, start=c (2004,1)) 

> sales.pre=HoltWinters (sales) 

> sales.pre 

Holt-Winters exponential smoothing with trend and additive seasonal component. 


Gallils 
HoltWinters(x = sales) 


Smoothing parameters: 
alpha: 0.3612309 
beta : 0.1084233 
gamma: 1 


Coefficients: 
lz 
A 772171:32662 
b 16.84840 
sl -30.83908 
s2 55.66894 
s3 147.48133 
s4 -66.32662 
> sales.pre$ssE 
[1] L011 .92 


模型 中 参数 值 分 别 为 alpha=0.361， 说 明 历史 观测 值 在 估计 当前 时 点 的 水 平时 占据 更 大 比重 ; 
beta=0.108 说 明 估 计 的 趋势 主要 依赖 于 历史 数据 ， 说 明 趋 势 变化 并 不 剧烈 ， 这 一 点 从 原始 序列 的 
时 序 图 中 也 可 以 看 出 ， 而 gamma=1 表明 当前 时 点 季节 性 部 分 的 估计 仅 取决 于 最 近 的 观测 值 。 
Winters 指数 平滑 模型 的 总 体 残 差 平方 和 为 19012， 除 了 反映 估计 的 残 差 ， 其 大 小 很 大 程度 上 也 与 
数据 的 量 纲 有 关 。 


使 用 函数 plotO 画 出 原始 数据 覆盖 期 间 的 实际 值 和 预测 值 曲 线 图 ， 比 较 观 察 模 型 预测 效果 。 


> plot (sales .pre) 
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绘制 结果 如 图 13.14 所 示 。 
Hoit-Winters filtering 
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图 13.14 销售 额 实际 值 与 预测 值 的 时 序 图 


接 下 来 预测 2010 年 的 销售 额 数 据 ， 由 于 时 间 序 列 以 季节 为 时 点 ， 因 此 预测 时 函数 
forecast.HoltWinters() 中 的 参数 h 要 设置 为 4。 

> sales.pre2=forecast.HoltWinters (sales .pre,h=4) 

> plot (sales .pre2) # 这 里 使 用 函数 plot .forecast () 的 方法 与 plot () 是 一 样 的 


绘制 结果 如 图 13.15 所 示 。 Forecasts from HoltWinters 


预测 图 13.15 中 原始 数据 以 曲线 表示 ， 
2010 年 4 个 季节 销售 额 的 预测 值 用 散 点 表示 ， 2 
可 以 看 出 预测 结果 反映 了 序列 的 趋势 性 和 季 
节 性 。 最 后 通过 自 相 关 图 和 Ljung-Box 检验 来 
检查 残 差 是 否 自 相关 。 
> 
acf (sales .pre2$residuals, lag.max=8) 图 13.15 季节 性 时 间 序 列 的 预测 
绘制 结果 如 图 13.16 所 示 。 
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图 13.16 ”Winters 指数 平滑 的 自 相关 图 
从 自 相 关 图 中 可 以 看 出 ， 各 阶 残 差 的 自 相关 系数 都 没有 超过 置信 界限， 初步 判断 残 差 不 是 自 
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相关 的 ， 再 做 Liung-Box 检验 。 


> Box.test (sales.pre2$residuals,1ag=8, type="Ljung-Box") 
Box-Ljung test 


data: sales.pre2$residuals 

X-squared = 9.4184, df = 8, p-value = 0.3082 

检验 结果 得 到 P 值 =0.3082， 没 有 足够 理由 拒绝 原 假 设 ， 说 明 残 差 不 存 在 自 相 关 性 。Winters 
平滑 法 对 本 例 的 拟 合 效 果 很 好 。 


13.4 ARIMA 模型 分 析 


指数 平滑 法 要 求 预测 残 差 是 不 相关 的 ， 而 且 必 须 服 从 零 均 值 、 方 差 不 变 的 正 态 分 布 。 这 种 限 
制 很 严格 ， 但 是 在 时 间 序 列 中 ， 连 续 数值 之 闻 往 往 不 可 能 没有 相关 性 ， 所 以 在 很 多 情况 下 ， 我 们 
可 以 考虑 数据 之 间 的 相关 性 ， 然 后 创建 更 好 的 模型 进行 预测 ，ARIMA 模型 便 突破 了 这 种 限制 。 

ARIMA 全 称 自 回 归 移 动 平均 模型 ， 是 由 Box 和 Jenkins 于 1970 年 在 《Time Series Analysis 
Forecasting and Control》 一 书 中 提出 的 ， 所 以 又 称 Box-Jenkins 模型 。 该 模型 包含 三 个 参数 ， 
”ARIMA(p,d,q)， 是 一 个 差分 自 回归 移动 平均 模型 ， 其 中 AR 表示 自 回 归 , p 是 自 回归 的 阶 数 ; MA 
表示 移动 平均 ，49 是 移动 平均 项 数 ， 而 d 是 时 间 序 列 变 为 平稳 时 所 需要 做 的 差分 次 数 。 


13.4.1 基本 思想 
所 谓 ARIMA 模型 ， 是 指 将 非 平稳 时 间 序 列 转化 为 平稳 时 间 序 列 ， 然 后 对 平稳 时 间 序 列 建立 
ARMA 模型 。ARIMA 模型 根据 原 序列 是 否 平稳 以 及 回归 中 所 含 部 分 的 不 同 ， 可 以 细 分 为 移动 平均 
过 程 (MA)、 自 回归 过 程 AR)、 自 回归 移动 平均 过 程 ARMA) 以 及 ARIMA 过 程 。 通 式 写 作 
GB)(1—B) X(t) = 0(B)e(?) 
qd 冯 0 时 ， 原 序列 不 是 平稳 的 ， 因 此 方差 非 齐 ; 当 我 们 进行 4 阶 差分 后 ， 差 分 后 的 序列 具有 
方差 齐 性 ， 这 也 是 对 其 差分 的 主要 原因 。 


R 语言 中 的 函数 arima.sim() 可 以 产生 一 个 模拟 的 ARIMA 过 程 ， 它 的 调用 格式 为 
arima.sim(model, n, rand.gen = rnorm, innov = rand.gen(n, ...), 
n.start = NA, start.innov = rand.gen(n.start, ...),...) 


model 是 一 个 列表 , 包含 对 象 ar 和 ma 分 别 给 出 AR 和 MA 的 系数 ，order 设置 p、d、g 的 值 ， 
一 个 空 的 列表 将 给 出 ARIMA(0,0,0) 模 型 ， 也 就 是 一 个 白 噪 声 序 列 ;， 参数 n 输出 序列 的 长 度 ， 其 他 
参数 的 设置 请 参考 R 帮助 文档 。 


模拟 时 间 序 列 并 不 是 很 常用 ， 实 际 分 析 中 我 们 更 注重 时 间 序 列 的 拟 合 及 预测 。 在 R 中 进行 时 
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间 序 列 的 ARIMA 建 模 的 步骤 是 : 


G 时 间 序 列 的 平稳 化 处 理 ; 

@ 根据 自 相 关 和 偏 自 相 关 图 选择 阶 数 ， 建 立 相应 的 模型 ; 

@ 选 好 阶 数 后 ， 进 行 参数 估计 ; 

@ 利用 建 好 的 模型 作 预测 分 析 ， 并 诊断 残 差 序列 是 否 为 白 噪声 。 


下 面 ， 我 们 使 用 R 语言 一 步 一 步 来 实现 上 述 操作 。 
13.4.2 平稳 化 处 理 


ARIMA 模型 要 在 平稳 时 间 序 列 的 基础 上 建 模 ， 一 般 来 讲 ， 经 济 运行 的 时 间 序 列 都 是 非 平稳 
序列 ， 需 要 事先 做 平稳 化 处 理 。 如 果 拿 到 的 数据 序列 是 非 平稳 的 ， 并 存在 一 定 的 增长 或 下 降 趋 势 ， 
则 应 该 对 数据 进行 差分 处 理 ， 直 到 处 理 后 数据 的 自 相关 系数 和 偏 相关 系数 均 不 再 显著 地 异 于 零 ， 
也 就 说 明 平稳 化 完成 了 。 通 过 这 一 阶段 我 们 可 以 确定 参数 4 的 取 值 ， 如 果 必 须 对 时 间 序 列 做 4 阶 
差分 才能 得 到 一 个 平稳 序列 ， 那 么 我 们 就 应 该 选取 ARIMA(p,d,q) 模 型 ， 其 中 d 是 差分 的 阶 数 。 

对 13.3.3 节 中 介绍 的 我 国货 币 供应 量 M1，Holt 指数 平滑 模型 的 预测 效果 并 不 好 ， 我 们 尝试 
用 ARIMA 模型 对 其 建 模 预测 。 首 先 绘制 时 间 序 列 图 观察 序列 的 平稳 性 : 


> data=read.table("d:/data/M] .txt",header=T) 
> M=ts (data$M1, frequency=12, start=c(2002,1)) 
> plot.ts (M) 


绘制 结果 如 图 13.17 所 示 。 





M 
200000 


50000 


2002 2004 2006 2008 2010 2012 2014 


Time 
图 13.17 我 国货 币 供应 量 M1 的 时 间 序 列 图 
从 图 中 可 以 看 出 M1 的 时 间 序 列 是 具有 明显 趋势 的 非 平稳 序列 ， 需 要 进行 差分 平稳 化 。R 中 
的 函数 dift0 用 于 对 时 间 序 列 作 差 分 ， 调 用 格式 为 
diff (x, lag = 1, differences = 1，...) 
x 是 待 差分 的 数值 向 量 或 矩阵 ，lag 指定 差分 的 阶 数 ， 默 认 作 一 阶 差分 。 首 先 对 M1 作 一 阶 差 
分 并 绘制 差分 序列 图 : 


> M.diff=diff (M) 
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> plot (M.diff) 


绘制 结果 如 图 13.18 所 示 。 


M.diff 
-20000 -5000 10000 


2002 2004 2006 2008 2010 2012 2014 


Time 
图 13.18 一 阶 差分 序列 图 


从 图 13.18 中 看 ， 一 阶 差 分 序列 去 掉 了 趋势 ， 明 显 变 得 平稳 了 ， 但 最 近 时 期 的 波动 性 较 大 ， 
说 明 存在 异 方差 性 ， 我 们 对 原始 数据 取 对 数 可 以 消除 一 定 的 异 方差 性 ， 然 后 再 作 一 阶 差分 ， 并 用 
自 相关 图 来 检验 差分 序列 是 否 平稳 : 


> logM.diff=diff (log(M)) 

> op=par (mfrow=c (1,2)) 

> plot (diff (logM.diff)) 

> acf (logM.diff,1ag.max=10) 


绘制 结果 如 图 13.19 所 示 。 


四 
< 


2002 2004 2006 2008 2010 2012 2014 00 02 0.4 06 0.8 


Time Lag 


-02 02 06 10 


dMM.diff) 
-0.10 0.00 0.10 


图 13.19 一 阶 差 分 序列 的 时 序 图 和 自 相关 图 


取 对 数 并 进行 一 阶 差分 后 ， 序 列 在 10 阶 内 的 自 相关 系数 基本 上 都 落 在 置信 区 间 内 ， 可 以 认 
为 其 是 平稳 的 。 另 外 ， 对 平稳 性 的 检验 称 为 “单位 根 检验 ”， 在 R 中 可 以 利用 程序 包 fUnitRoots 
实现 。 本 例 的 目的 在 于 预测 ， 因 此 在 此 对 其 不 作 袭 述 。 


13.4.3 ” 建 模 


平稳 化 完成 后 ， 要 根据 时 间 序 列 模型 的 识别 规则 ， 对 平稳 序列 建立 相应 的 模型 ， 这 里 的 规则 
可 以 总 结 为 : 
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Q@ 若 平 稳 序列 的 偏 相关 系数 是 截 尾 的 ， 而 自 相 关系 数 是 拖 尾 的 ， 则 序列 适合 AR 模型 ; 

@ 若 平稳 序列 的 偏 相 关系 数 是 拖 尾 的 ， 而 自 相 关系 数 是 截 尾 的 ， 则 序列 适合 MA 模型 ; 

@ 若 平稳 序列 的 偏 相关 系数 和 自 相 关系 数 均 是 拖 尾 的 ， 则 序列 适合 ARMA 模型 。 

也 就 是 说 , 我 们 要 寻找 ARIMA(p,d,q) 中 合适 的 p 值 和 9g 值 , 一 般 通 过 平稳 时 间 序 列 的 自 相关 
图 和 偏 相关 图 判断 。 

R 中 分 别 用 函数 actD0 和 函数 pacfO 绘 制 自 相关 图 和 偏 相关 图 ， 它 们 的 调用 格式 相同 ， 若 将 参 
数 plot 设 为 FALSE， 将 返回 自 相 关 和 偏 相关 的 真实 值 ， 而 不 再 绘图 。 图 13.19 的 右 图 是 一 阶 差 分 


序列 的 自 相 关 图 ， 可 以 看 出 序列 的 一 阶 自 相 关系 数 略微 超过 置信 界限 ， 其 余 各 阶 自 相 关 均 在 虚线 
内 ， 因 此 可 以 设置 为 p 值 等 于 1 的 自 回归 。 


> pacf (M.diff,1ag.max=10) 


绘制 结果 如 图 13.20 所 示 。 
Series M.diff 


02 0.4 06 0.8 


Partial ACF 
-0.1 0.0 0.1 0.2 


Lag 
图 13.20 一 阶 差分 的 偏 自 相 关 图 


图 13.20 中 滞后 1 阶 的 偏 自 相关 值 超过 了 置信 和 界限， 后 面 除了 7 阶 偏 自 相关 系数 较 大 外 ， 其 
他 各 阶 的 数值 都 在 虚线 内 ， 所 以 初步 判断 是 阶 数 g=1 的 移动 平均 。 


根据 图 形 判断 阶 数 往往 需要 主观 选择 ， 在 没有 足够 把 握 的 情况 下 ，R 也 提供 了 一 个 “快捷 方 
式 ” 通过 程序 包 forecast 中 的 函数 auto.arima() 来 发 现 恰当 的 ARIMA 模型 ， 默 认 g 和 pp 的 最 大 阶 
数 都 是 5 阶 。 还 可 以 使 用 不 同 的 标准 来 选择 合适 的 模型 ， 通 过 参数 ic 来 设置 ， 通 常 我 们 会 选择 
BIC 作为 模型 选择 标准 ， 它 对 参数 个 数 的 要 求 非常 严格 。 

> library (forecast) 

This is forecast 4.06 

> auto.arima (M.diff,ic="bic") 

Series: M.diff 

ARIMA (0,0,0) (0,1,1) [12] 


Coefficients: 
smal 
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“0 .7523 
Ss.e. 0.0811 


sigma^2 estimated as 0.0002172: log likelihood=350.4 
AIC=-696.81 AICc=-696.71 BIC=-691.12 


根据 BIC 准则 ,，R 自动 为 我 们 选择 了 ARIMA(0,1,1) 的 一 阶 差 分 、 一 阶 移动 平均 模型 对 原始 的 
时 间 序 列 建 模 ， 即 p=0，d=1，gq=1， 这 里 4 是 差分 所 需要 的 阶 数 。 


13.4.4 ”模型 的 参数 估计 


一 旦 选择 好 了 时 间 序列 数据 的 ARIMA(p,q,q) 模 型 ,使 用 函数 arima() 可 以 估计 出 ARIMA(p,q,gq) 
模型 中 的 参数 ， 它 的 调用 格式 为 


arima (x, order = c(0, 0, 0),seasonal = list(order = c(0, 0, 0), period = NA),...) 


其 中 , x 是 单 变量 的 时 间 序 列 ; 参数 order 按 顺 序 设置 p、d、g 的 值 , 是 一 个 数值 向 量 ; seasonal 
设置 ARIMA 模型 中 的 季节 性 部 分 , 非 季 节 性 的 模型 则 无 需 设 置 , 其 他 参数 具体 参见 R 帮助 文档 。 


根据 自 相 关 图 和 偏 相关 图 的 分 析 结 果 ， 我 们 将 参数 设置 为 order=c(1,1,1)， 来 对 货币 供应 量 
的 模型 作 参 数 估计 。 注 意 ， 为 消除 异 方差 性 ， 本 例 中 对 原始 数据 取 了 对 数 : 

> M.arima=arima (log (M) ,order=c (1,1,1)) 

> M.arima 

Series: log(M) 

ARIMA (1,1,1) 


M 


一 


Coefficients: 
arl mal 
1 -0.992 
s.e. 0s 


sigma^2 estimated as 0.00042: log likelihood=341.74 
AIC=-677.49 AICc=-677.31 BIC=-668.68 


我 们 为 时 间 序 列 选 择 的 模型 是 ARIMA(1,1,1), 也 就 是 说 我 们 对 一 阶 差 分 序列 拟 合 ARMA(1,1) 
模型 ， 用 数学 形式 表示 为 


X, 一 人 直 证 =6&, -an teZ 
上 面 的 参数 估计 值 即 & =1,B =0.1054 。 
13.4.5 ”模型 预测 及 检验 


根据 参数 估计 得 到 的 时 间 序 列 模型 ， 我 们 可 以 对 未 来 的 序列 值 进行 预测 ， 并 通过 程序 包 
forecast 中 的 函数 forecast.Arima() 来 完成 ， 其 调用 格式 为 


forecast (object, h=10, 


> M., 
> M. 


sep 
DC 上 
NOV 
Dec 
Jan 
Feb 
Mar 
Apr 
May 
Jun 
Jul 
Aug 


level=c (80, 95),...) 


object 是 函数 arima0 返 回 的 分 析 结 果 对 象 ，h 指定 预测 的 未 来 时 点 数 ; level 确定 预测 区 间 的 
置信 水 平 ， 默 认 情况 下 将 给 出 80% 和 95% 置 信 水 平 下 的 预测 区 间 。 


例如 ， 我 们 对 未 来 一 年 (12 个 月 ) 的 货币 供应 量 M1 作 预 测 ， 由 于 我 们 使 用 的 是 月 度数 据 ， 
所 以 参数 h 设 为 12。 


Pre3=forecast .Arima (M.arima,h=12) 


pre3 


2013 
2013 
2013 
2013 
2014 
2014 
2014 
2014 
2014 
2014 
2014 
2014 


Point Forecast 
12.669 


-680 
.691 
.702 
-713 
-725 
.736 
-747 
:758 
.770 
781 
792 


Lo 80 


12, 
12. 
12. 
12. 
2 
12. 
12. 
br 
12。 
12. 
12. 
12. 


642 12.695 
642 12.717 
645 12.737 
649 12.756 
654 12.773 
659 12.791 
664 12.808 
670 12.824 
676 12.840 
683 12.856 
689 12.872 
696 12.888 


Hi 80 Lo 95 
2. 
12. 
12. 
12. 
12. 
2s 
22. 
2. 
12. 
12. 
12. 
32。 


628 
623 
621 
621 
622 
624 
626 
630 
633 
637 
641 
645 


Hi 95 


12. 
12. 
12. 
12. 
12. 
12。 
12. 
2. 
12. 
了 2 
12: 
12. 


939 
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仍然 用 函数 plot.forecast0 绘 制 原 始 值 和 预测 值 ， 查 看 图 形 效 果 。 


> plot.forecast (M.pre3) 


绘制 结果 如 图 13.21 所 示 。 


ed 
be] 
‘<4 
© 
[a] 
并 


OO 
— 
二 


Forecasts from ARIMA(1,1,1) 


2002 2004 2006 2008 


图 13.21 


“i 
2010 2012 2014 
ARIMA 模型 预测 图 


完成 ARIMA 建 模 的 整个 过 程 后 ， 还 要 对 模型 进行 假设 检验 ， 诊 断 残 差 序列 是 否 为 白 噪 声 。 
这 里 的 方法 与 指数 平滑 法 一 致 ， 仍 采用 自 相 关 图 和 Ljung-Box 检验 结合 ， 来 诊断 残 差 序列 的 自 相 
关 性 ， 假 设 我 们 查看 滞后 5 阶 的 自 相关 性 : 


> acf (M.pre3$residuals, lag.max=5) 
> Box.test (M.pre3$residuals, 1ag=5,type="Ljung-Box") 


data: 


Box-Ljung test 


M.pre3$residuals 


X-squared = 10.699, df = 5, p-value = 


0.05769 
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绘制 结果 如 图 13.22 所 示 。 


Series M.pre3$residuals 


[=] 
© 
二。 写 
oO 
To 
口 
人 | 
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Lag 
图 13.22 ARIMA 模型 的 残 差 自 相 关 图 


Ljung-Box 检验 的 书 值 =0.0577， 尽 管 并 不 是 很 显著 ， 但 在 0.05 的 显著 性 水 平 下 ， 我 们 也 没 
有 足够 的 理由 认为 可 以 拒绝 原 假设 。 再 结合 自 相 关 图 , 滞后 1 一 5 阶 的 自 相 关系 数 均 没 有 超过 置 
信 界 限 ， 因 此 我 们 认为 ARIMA(1,1,1) 模 型 可 以 通过 白 噪声 检验 ， 适 用 于 对 时 间 序 列 M1 的 建 模 
和 预测 。 


罗 克 
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在 数据 预测 中 的 应 用 


R 在 金融 数据 分 析 中 的 应 用 





数据 分 析 是 一 项 实践 性 很 强 的 技术 ， 它 不 可 能 只 停留 在 理论 的 层面 ， 更 多 的 是 应 用 于 实际 ， 
去 寻找 各 个 领域 中 关于 数字 的 规律 。 


把 R 软件 与 数据 分 析 方 法 完美 地 结合 ， 我 们 才能 在 实践 中 ， 在 各 式 各 样 的 案例 分 析 中 使 用 及 
得 到 理想 的 结论 。 本章 将 通过 实际 操作 的 方法 介绍 金融 数据 分 析 , 且 选 择 了 较为 经 典 的 分 析 主 题 ， 
借 由 及 语言 实现 模型 构建 , 并 以 可 视 化 的 图 形 展 现 分 析 结 果 , 向 读者 展示 R 在 金融 分 析 中 的 应 用 。 


14.1 投资 组 合 最 优化 实例 
14.1.1 概述 


证 券 投 资 组 合 是 指 投资 者 对 各 种 证 券商 品 进行 一 定 的 选择 而 形成 相对 固定 的 若干 个 投资 品 
种 ， 以 达到 在 一 定 的 约束 下 ， 实 现 投 资 收 益 最 大 化 的 基本 目标 。 在 证 券 市 场 上 可 用 于 投资 的 证 券 
种 类 很 多 ， 因 此 投资 者 可 以 建立 无 数 个 证 券 投 资 组 合 进行 投资 ， 那么 何 种 证 券 组 合 才 是 最 有 效 的 
投资 组 合 呢 ? 这 即 为 投资 组 合 的 最 优化 问题 。 


证 券 投 资 的 目标 无 非 是 获得 尽 可 能 高 的 投资 收益 ， 并 承担 尽 可 能 小 的 风险 。 为 寻求 期 望 收益 
和 投资 风险 之 间 的 平衡 ，Markowitz 提出 证 券 组 合 投资 理论 ， 在 用 横 轴 表示 投资 组 合 的 风险 mw、 
纵 轴 表 示 投 资 组 合 的 预期 报酬 率 如 的 坐标 图 中 , 可 以 求 得 一 条 最 有 效率 的 投资 组 合 边界 曲线 EF， 
如 图 14.1 所 示 。 


本 例 的 目标 就 是 利用 R 软件 ， 根 据 不 同方 法 寻找 投资 组 合 的 这 一 有 效 边 界 ， 绘 制 出 投资 机 会 


集 的 有 效 边 际 图 像 。 首 先 介绍 最 为 经 典 的 马 科 维 茨 投资 组 合理 论 ， 马 可 维 茨 的 风险 定价 思想 在 他 
创建 的 “均值 一 标准 差 ” 模 型 中 表现 得 最 为 清楚 。 
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图 14.1 投资 组 合 边 界 曲 线 


14.1.2 均值 一 方差 模型 


单 从 现代 证 券 投资 组 合理 论 来 看 ， 基 于 不 同 风险 的 刻画 《如 方差 、 半 方差 、 绝 对 偏差 等 度量 
方式 ) 和 不 同 投资 准则 《〈 如 最 大 化 期 望 收益 率 、 最 小 化 风险 、 安 全 第 一 准则 等 ) 下 的 证 券 投资 组 
合理 论 和 模型 如 雨后春笋 般 涌 出 , 其 中 最 具有 代表 性 和 广 为 采 用 的 是 M-V 理论 、 效 用 理论 和 随机 
最 优 控制 理论 。 


M-V 理论 经 历 了 从 单 阶段 到 多 阶段 再 到 连续 时 间 的 发 展 过 程 , 其 优点 在 于 直观 , 容易 被 接受 ， 
因而 在 实际 中 应 用 非常 广泛 。 但 它 假设 的 市 场 比较 简单 ， 不 能 有 具体 地 反映 出 实际 市 场 的 复杂 变化 
情况 。 

经 典 的 均值 一 方差 (M-V) 模型 表达 式 为 

min f(X)= XVY 
st. ry 其 中 ，X 宕 0,i=1,2,...,7 
i=1 

n 表示 可 用 于 投资 组 合 的 证 券 数 目 ( 本 文中 为 30),，R 为 各 证 券 的 期 望 收 益 向 量 , 了 对 为 各 证 券 
投资 比例 的 向 量 ，6 为 投资 者 的 目标 收益 。 

在 均值 一 标准 差 的 二 维 空间 中 给 出 投资 机 会 集 的 有 效 边界 ， 单 个 资产 或 组 合资 产 的 期 望 收 益 
率 由 风险 测度 指标 标准 差 决定 : 风险 越 大 收益 率 越 高 ， 风 险 越 小 收益 率 越 低 。 风 险 对 收益 的 决定 
是 非 线 性 (二 次 ) 的 双 曲 线 〈 或 抛物 线 ) 形式 ， 这 一 结论 是 基于 投资 者 为 风险 规避 型 这 一 假定 而 
得 出 的 。 

均值 一 方差 模型 是 股票 投资 组 合 优化 理论 中 最 为 朴素 的 算法 ， 因 此 在 R 中 的 实现 很 容易 ， 简 
单 地 说 就 是 “随机 打点 法 ”。 我 们 首先 选取 投资 组 合 的 股票 构成 ， 读 入 数据 并 作 初 步 的 处 理 。 

【数据 来 源 】 

上 证 50 指数 是 我 国 证 券 市 场 中 具有 较 大 影响 力 的 指数 ， 上 证 50 指数 成 分 股 是 上 海 证 券 交 易 
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所 所 有 股票 的 一 个 代表 。 因 此 我 们 选择 上 证 50 概念 股票 中 的 前 30 支 股票 〈 按 股票 代码 顺序 ) 在 
2012 年 12 月 10 日 时 点 前 220 个 交易 日 的 日 收益 率 数 据 ， 使 用 不 考虑 现金 红利 的 日 个 股 回报 率 。 


数据 分 析 : R 语言 实战 


数据 下 载 于 国泰 安 数据 中 心 。 

在 R 中 读 入 原始 数据 ， 并 计算 出 30 支 股票 的 协 方差 阵 和 平均 收益 ， 以 备 后续 计 算 使 用 。 输 
入 如 下 指令 : 

> setwd("d:/data") # 设 定数 据 文 件 所 在 的 路 径 为 默认 路 径 

> data=read.csv ("Dalyr.csv",header=TRUE) 

> code=unique (data$Stkcd) # 提 取 股 票 的 唯一 标识 一 股票 代码 

> n=length (code) 

> # 整 理 数据 

> # 计 算 30 支 股票 的 协 方差 阵 和 平均 收益 

> Dalyr=matrix(0,220,n) 

人 

4 

+ Dalyr[,i]=data$Dretnd[which (data$stkcd==code[i])] 

站 

> r.cov=cov (Dalyzr)#cov 对 一 个 矩阵 求 协 方差 , 结果 为 一 个 矩阵 

> r.mean=apply (Dalyr,2,mean) # 对 每 列 计算 均值 

> options (digits=2) 

> r.mean 


[ 


[1] -0.00054-0.00059 -0.00102 0.00016 -0.00068 -0.00015 -0.00067 
[10] -0.00115 -0.00056 0.00174 -0.00146 -0.00183 0.00028 0.00247 -0.00143 -0.00189 
19] -0.00086-0.00038 0.00074 0.00057 0.00083 0.00037 -0.00264 0.00010 -0.00113 


[28] 0.00056-0.00017 0.00056 


以 上 为 30 支 股票 在 这 220 个 交易 日 的 平均 收益 率 ， 将 其 绘 成 散 点 图 (如 图 14.2 所 示 )。 


> 


使 用 朴素 方法 画 出 股票 投资 组 合 的 有 效 边 界 , 完全 依据 均值 一 方差 模型 的 原理 , 随机 模拟 100 
000 种 投资 组 合 的 权重 ， 将 所 有 投资 组 合 的 点 画 在 均值 方差 图 中 ， 选 取 每 个 期 望 收益 下 风险 最 小 


plot (上 .meanymain=130 支 股票 期 望 收益 率 ! ,pch=8, col=2) 
30 支 股票 期 望 收益 率 


rmean 
-0.002 0.000 0.002 





图 14.2 30 支 股票 的 期 望 收益 率 


-0.00156 0.00015 
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的 点 连 成 有 效 边界 曲线 。 


在 R 中 输入 如 下 指令 : 


### 均 值 一 方差 模型 ### 
tl1l=Sys.time () 
num=100000# 循 环 十 万 次 ， 画 出 随机 点 
rp=numeric (num) ;sigmap=numeric (num) # 定 义 两 个 变量 ,存放 投资 组 合 的 均值 和 标准 差 
for {i Ln Lenuay) 
{ 
xl=runif (30) 
x=x1/sum (x1) 
rp[i]=suml(r.mean*x) 
sigmap[i]=t (x)%S*%r .COV$S*$%Sx 
} 
plot (sigmap, rp, pch=' .',main=' 随 机 打点 法 有 效 边界 ') # 绘 制 10 万 次 模拟 的 投资 组 合 散 点 
# 计 算 有 效 边 缘 
rp=round (rp, 4) 
rp.uni=unique (rp) 
nn=length (rp.uni) 
sigma.min=numeric (nn) 
Or (i 4 Tenm) 
{ 
sigma.min[i]=min (sigmap[which (rp==rp.uni[i])]) 
} 
rp.sort=sort (rp.uni) 
order=order (rp.uni) 
lines (rp.sort~sigma.minl[order],col='red') 
t12=Sys .time () 
time.usedl=t12-t11;time .usedl# 朴 素 法 使 用 的 时 间 
Time difference of 11 secs 


绘制 结果 如 图 14.3 所 示 。 


WM YVR YY 


随机 打点 法 有 效 边 界 





0e+00 


rp 
-4e-04 








-8e-04 


0.00006 0.00008 0.00010 0.00012 0.00014 


sigmap 


图 14.3 均值 一 方差 法 的 有 效 边界 
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对 现 有 的 30 支 股票 ， 随 机 模拟 出 10 万 种 投资 组 合 的 结构 ， 从 图 14.3 中 散 点 的 密集 程度 可 以 
发 现 模拟 几乎 可 以 覆盖 各 种 可 能 的 组 合 ， 对 收益 率 相 等 的 投资 组 合 寻找 标准 差 最 小 的 那个 点 ， 最 
后 就 可 以 连接 成 有 效 边界 曲线 。 


但 是 这 种 方法 毕竟 过 于 朴素 ， 需 要 大 量 的 模拟 才能 得 到 一 个 相对 有 效 的 结果 ， 实 现 起 来 需要 
花费 11 秒 的 时 间 。 但 现实 的 投资 组 合 远 不 止 30 支 股 票 ， 我 们 需要 找到 更 好 的 组 合 最 优化 算法 。 


14.1.3 ”模拟 退火 算法 


均值 一 方差 模型 在 原理 上 是 一 个 精确 算法 ， 但 若 要 在 软件 中 实现 ， 也 要 辅助 随机 模拟 ， 从 而 
变 成 了 一 种 近似 方法 。 随机 模拟 中 的 很 多 优化 算法 就 是 这 样 一 种 近似 方法 , 它们 不 可 能 完全 精确 ， 
但 却 是 可 以 实现 的 快速 算法 。 接 下 来 我 们 使 用 其 中 的 一 种 一 一 模拟 退火 算法 ， 来 寻找 投资 组 合 的 
有 效 边 界 。 


【算法 原理 】 

模拟 退火 算法 最 早 的 思想 于 1953 年 由 Metropolis 等 提出 , 它 模 拟 物理 的 退火 过 程 , 应 用 于 组 
合 最 优化 ， 克 服 了 优化 过 程 中 局 部 极 小 和 初 值 依 赖 性 的 缺陷 。 

(1) 物理 退火 过 程 

加 温 过 程 一 一 使 目标 组 合 处 于 完全 随机 状态 ; 

等 温 过 程 一 一 在 某 一 温度 下 ， 系 统 处 于 温度 不 变 的 封闭 系统 ， 系 统 状 态 的 变化 朝 自由 能 减少 
的 方向 进行 ; 

冷却 过 程 一 一 温度 减 小 ， 系 统 的 能 量 逐 渐 下 降 并 逐渐 趋 近 有 序 ， 从 而 得 到 最 优 的 状态 。 

模拟 退火 算法 将 上 述 过 程 应 用 于 组 合 最 优化 问题 ， 将 内 能 模拟 为 组 合 的 目标 函数 值 ， 两 者 相 
似 性 如 表 14.1 所 示 。 


表 14.1 模拟 退火 法 与 物理 退火 过 程 ， 
仙人 
ee 


能 量 最 低 的 状态 









解 
最 优 
(2) Metropolis 抽样 过 程 


实现 组 合 在 某 一 温度 下 达到 最 优 状态 的 过 程 。 应 用 Metropolis 准则 并 适当 地 控制 温度 的 下 降 
过 程 实现 模拟 退火 ， 从 而 达到 求解 全 局 优化 问题 的 目的 。 这 一 过 程 使 用 Monte Carlo 加 以 模拟 。 


一 
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模拟 退火 算法 对 应 了 一 个 马尔 可 夫 链 ， 新 状态 接受 概率 仅 依赖 于 新 状态 和 当前 状态 ， 这 是 
Metropolis 抽样 的 基础 。 在 温度 7 下 ， 组 合 停留 在 某 一 状态 满足 Boltzmann 概率 分 布 ， 因 此 有 


P{E=E}-P{E= Bz) |- a 站 


车 在 温度 7 下， 选取 当前 状态 i 的 相 邻 状态 j， 若 上 £; < 5， 则 接受 j 为 当前 状态 ， 否则 ， 若 
概率 p=exp[-(E; 一 BE)/T] 大 于 [0,1) 区 间 的 随机 数 ， 则 仍 接受 状态 j 为 当前 状态 ， 若 前 面 两 个 条 
件 均 不 成 立 ， 则 保留 状态 i 为 当前 状态 。 

【投资 组 合 优化 的 模拟 退火 过 程 】 

根据 Metropolis 准则 ， 将 内 能 E; 模 拟 为 目标 函数 值 /， 温 度 T 了 演化 成 控制 参数 7,“ 解 ” 即 为 
最 优 投资 组 合 的 权重 值 ， 即 得 到 解 投资 组 合 优化 问题 的 模拟 退火 算法 : 由 初始 解 和 控制 参数 初 


值 7 开始 ， 对 当前 解 重复 “产生 新 解 -计算 目标 函数 差 -判断 是 否 接受 -接受 或 舍弃 ”的 迭代 ， 并 逐 
步 衰减 了 值 ， 算 法 终止 时 的 当前 解 即 为 所 得 近似 最 优 解 。 


(1) 思路 
给 定 初 温 7=76。， 随 机 产生 初始 状态 /=f， 令 k=1; 


Repeat 





Repeat 
产生 新 状态 fj=Generate (f); 


If min{l,exp[—(f;—/)/T]}> random[0,1] f=/,; 
Until 抽样 稳定 准则 满足 ; 
退 温 了 ,= update(T) 并 令 k=k+1; 
Until 算法 终止 准则 满足 ; 
输出 算法 搜索 结果 。 
(2) 模拟 退火 法 的 步骤 


1. 初始 化 。 给 定 初始 温度 T= 地， 随机 产生 初始 状态 半 = 半 。， 确 定 在 每 个 温度 下 的 迭代 次 
数 工 ; 

2. 在 温度 了 下 对 三 1,2,...,L 重复 步骤 3 和 步骤 6; 

3. 产生 相 邻 状态 X; 

4. 计算 评价 目标 函数 的 增 量 Af = f(X)-F(X); 

5. 如 果 Af < 0 ， 则 接受 新 解 ; 否则 ， 如 果 exp(-A /7) 大 于 [0,1] 上 的 一 个 随机 数 ， 则 接受 新 
解 《设置 双 阔 值 ); 

6. 如 果 满 足 终 止 条 件 则 输出 当前 解 作 为 最 优 解 ， 结 束 计 算 ; 
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7. 退火 ， 然 后 转 至 步骤 2。 

(3) 目标 函数 的 选择 

根据 M-V 模型 , 投资 组 合 的 最 优化 是 一 个 多 约束 条 件 下 的 优化 问题 , 这 在 模拟 退火 算法 中 是 
首先 要 解决 的 问题 。 为 简化 计算 的 思路 , 可 将 多 个 约束 化 为 一 个 条 件 , 用 如 下 方法 建立 目标 函数 。 

方法 1: 乘法 函数 法 

应 用 乘法 函数 法 可 以 将 M-V 模型 转化 为 如 下 的 惩罚 函数 Z( 习 的 无 约束 优化 问题 来 进行 求解 ; 

minL(x)= f(X)+M(max(0,(6 — R’X)) 

其 中 ，M 为 惩罚 因子 ， 是 充分 大 的 正 数 。 

方法 2， 正 态 假设 法 

以 5 为 目标 收益 率 ， 那 么 投资 组 合 最 优化 的 目标 即 为 使 组 合 收益 率 达到 6 的 概率 最 大 化 
max P(r, > 9) 。 假 设 每 个 证 券 的 期 望 收益 率 均 服 从 正 态 分 布 ， 那 么 投资 组 合 的 收益 率 也 服从 正 
态 分 布 ， 即 


nn 


sy wi Ry ] 


i=] 


从 而 概率 最 大 化 的 模型 可 以 表示 为 


min /CD = in 

(4) 参数 选择 

1) 目标 收益 率 5。5 应 大 于 所 选取 的 30 支 股票 的 最 高 收益 率 ， 本 文选 择 0.0025。 
2) 相 邻 状态 的 产生 


由 于 模拟 退火 算法 的 Markov 性 ， 相 邻 状态 的 产生 依赖 于 当前 状态 。 假 设 当前 状态 下 投资 组 
合 权重 为 下 4 = (x ,2 )， 它 的 相 邻 状态 产生 函数 为 xi = 二 x*+Q(b 一 q)=x* + 。 其 中 ， 
a 为 (0,1) 上 的 随机 数 ，[a, 5] 为 x 的 取 值 范围 ， 即 [0,1]。 


和 
3) 温度 衰减 函数 。 世 di To 是 初始 温度 ，m 是 一 个 大 于 等 于 1 的 常数 ， 


通常 取 3; 是 第 上 次 降温 后 的 温度 。 
4) 终止 条 件 。 温 度 最 终 降 为 7=0.0001 接近 零度 ， 冷 却 状态 ) 时 循环 过 程 结束 。 


第 14 章 R 在 金融 数据 分 析 中 的 应 用 ”295 


在 参数 选择 的 过 程 中 ， 对 初始 温度 及 内 层 夫 代 的 次 数 没有 进行 设置 ， 由 于 这 两 个 参数 直接 决 
定 着 算法 的 循环 次 数 以 及 优化 效果 ， 初 始 温度 的 选择 越 高 ， 则 退 温 次 数 越 多 ， 搜 索 到 全 局 最 优 的 
可 能 性 越 大 ， 从 而 得 到 的 结果 比较 稳定 。 但 算法 的 迭代 次 数 增加 会 降低 算法 的 可 行 性 和 有 效 性 ， 
因此 本 文通 过 几 次 尝试 ， 选 择 最 适合 的 参数 来 控制 循环 次 数 和 结果 。 


首先 使 用 乘法 函数 法 的 目标 函数 , 设置 初始 温度 为 10 000, 内 循环 次 数 为 10, 实现 的 代码 如 下 : 


"0 


7 有 


###simulated annealing### 

t21=Sys .上 time () 

temp0=10000 # 确 定 初 温 

temp=temp0 

x0=c (1, runif (29)) 

x=X0/sum (x0) 

L=10 # 循 环 次 数 

M=1000 # 惩 罚 因 子 

R=0.0025 间 目 标 收益 牵 

fl1=function (x) { 七 (X) %*%r .cov$*%x+M*max (0, R-sum (r .mean*x) ) } # 乘 法 函数 法 
f2=function (x) { (R-sum (r .mean*x) ) /sqrt (t (x) $*%r .COVS%xSsX) } # 正 态 假 设法 


f=f1 (x) # 记 录 每 次 退 温 的 最 优 解 
f=as.numeric (f) 
k=1 井 记录 退 温 次 数 
a=data.frame (x) # 记 录 权 重 
e=0.00001 
while (temp>0 .001) 
{ 
£0¥E(3, An Ls:L) 
{ 
xl1=x+runif (30) 
xl1=x1/sum (x1) 
deltaf=f1 (x1)-f£1 (x) 
pr=exp (-deltaf/temp) #Meropolis 判断 概率 
if(deltaf<0) {x=xl1l;f[k+1]=f1 (x1)} else {if(pr>runif(1)) x=xl1;f[k+1]=fl1 (x1)} 
} 
k=k+1 
a[lk]=x 
temp=temp0/ (k^3)# 退 温 
} 


# 退 火 法 选取 的 投资 组 合 

r.sa=0;sigma.sa=0 

for (i in 1l:length (a)) 

{ 
r.sa[li]=sum(r.mean*al[l [i]]) 
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sigma.sal[li]=t (a[ [i]])%*%r.covg*%al[l [i]] 

} 

plot (sigma.sa,r.sa,main=' 模 拟 退 火 法 有 效 边界 ') 

# 有 效 边缘 

r.sa=round(r.sa,4) 

rsa.uni=unique (r.sa) 

nn=length (rsa.uni) 

sigma.min=numeric (nn) 

For (i nN, Bunn) 

{ 
sigma.min[i]=min(sigma.sal[lwhich(r.sa==rsa.uni[i])]) 

} 

rsa.sort=sort (rsa.uni) 

order=order (rsa.uni) 

lines (rsa.sort~sigma.min[order],col='red',1lwd=2) 

legend (0.000101,-4e-04, legend=' 正 态 假设 法 ') 

t22=Sys .time () 

time.used2=t22-t21;time .used2# 退 火 法 使 用 的 时 间 


Time difference of 1.3 secs 


很 明显 ， 模 拟 退 火 算 法 大 大 提高 了 计算 效率 ， 其 仅 使 用 了 1.3 秒 就 完成 了 所 有 的 步 又， 绘制 
的 有 效 边 界 图 如 图 14.4 所 示 。 由 于 循环 次 数 过 少 使 得 模拟 的 有 效 边界 不 完整 ， 且 投资 组 合 的 点 过 
于 分 散 。 


模拟 退火 法 有 效 边界 


-1e-04 


T.Sa 


-7e-04 -4e-04 





让 0.00008 0.00009 0.00010 “0.00011 


sigma.sa 


图 14.4 ”模拟 退火 法 的 有 效 边界 (初始 温度 为 10 000， 内 循环 次 数 为 10) 


当 我 们 把 初始 温度 增加 至 100 000， 内 循环 次 数 增 为 50 时 ， 共 退 温 465 次 ， 优 化 效果 得 到 明 
显 的 改善 ， 因 此 选取 五 =100 000, 革 =30 。 有 效 边 界 如 图 14.5 所 示 。 
花费 的 计算 时 间 为 4.9 秒 。 


> time.used2=t22-t21;time .used2# 退 火 法 使 用 的 时 间 
Time difference of 4.9 secs 
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图 14.5 模拟 退火 法 的 有 效 边界 (初始 温度 为 100 000， 内 循环 次 数 为 50) 
使 用 正 态 假设 下 的 目标 函数 〈 f;, )， 同 样 也 可 算出 有 效 边界 ( 见 图 14.6)。 
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图 14.6 模拟 退火 法 的 有 效 边界 〈 正 态 假设 ) 
与 朴素 法 比较 ， 模 拟 退 火 法 明显 改善 了 计算 有 效 边界 的 效率 ， 通 过 筛选 条 件 选取 接近 有 效 边 
界 的 点 ， 算 法 明显 加 快 。 
使 用 Sys.time() 函 数 计算 ， 朴 素 方法 使 用 的 时 间 为 11 秒 ， 而 初 温 为 100 000、 内 层 迭 代 次 数 为 
50 的 模拟 退火 方法 用 的 时 间 为 4.9 秒 〈 乘 法 函数 法 目标 函数 )、5 秒 〈 正 态 假设 下 的 目标 函数 )， 
效率 提高 了 ， 且 得 到 了 更 好 的 有 效 边界 图 形 。 而 目标 函数 的 选择 对 于 结果 和 效率 影响 并 不 太 大 。 
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注意 : 由 于 Monte Carlo 随机 模拟 的 随机 性 ， 因 此 每 次 计算 的 图 形 结果 和 使 用 时 间 有 一 
定 出 入 ， 文 中 选取 了 较 好 的 图 形 效果 展示 。 


14.2 ”构造 投资 组 合 的 有 效 前 沿 
14.2.1 R 中 的 算法 包 


构造 投资 组 合 的 有 效 前 沿 一 直 都 是 金融 投资 分 析 中 的 重要 问题 ， 前 面 介 绍 的 均值 一 方差 模型 
是 股票 投资 组 合 优化 理论 中 最 为 朴素 的 算法 。 


随 着 R 使 用 者 的 不 断 研究 开发 ，R 目前 已 经 拥有 了 可 以 用 于 计算 有 效 前 沿 的 函数 ， 其 比 起 随 
机 模拟 计算 将 更 为 精确 ， 也 更 加 简单 。 在 R 中 实现 投资 组 合 有 效 前 沿 的 计算 ， 依 靠 以 下 三 个 步骤 
完成 : 

1. 读 入 数据 ; 

2. 将 数据 加 工 处 理 ， 得 到 收益 率 矩 阵 ; 

3. 以 收益 率 矩 阵 作为 输入 变量 ， 计 算得 到 有 效 前 沿 。 


在 获取 数据 之 前 , 我 们 首先 介绍 一 个 在 金融 分 析 中 常用 的 程序 包 quantmod, 它 是 Quantitative 
Financial Modeling & Trading Framework 的 简写 , 顾名思义 其 是 进行 金融 定量 建 模 和 交易 分 析 的 程 
序 包 ， 作 者 为 Jeffrey A. Ryan。 


quantmod 中 提供 了 获取 金融 数据 的 函数 getSymbols0， 它 在 获取 数据 方面 功能 很 强大 且 使 用 
起 来 非常 便捷 ， 可 以 直接 从 网 站 上 下 载 数据 ， 其 调用 格式 为 


getSymbols (Symbols = NULL, env = parent.frame(), reload.Symbols = FALSE, 
verbose = FALSE, warnings = TRUE, src = "yahoo", symbol.lookup = TRUE, 
auto.assign = getOption('getSymbols.auto.assign',TRUE), ...) 


Symbols 是 一 个 字符 向 量 ， 用 于 指定 要 加 载 的 数据 名 称 ， 一 般 为 上 市 公司 的 名 称 ， 例 如 要 获 
取 Google 公司 的 数据 ， 则 输入 “GOOG”， 要 得 到 中 国 移动 的 数据 ， 则 输入 “CHL”，enyv 指定 创 
建 对 象 的 位 置 ，verbose 是 逻辑 值 ， 指 定 是 否 返 回 检 索 状 态 ; warnings 也 是 一 个 逻辑 值 ， 表 示 是 否 
返回 警告 src 是 除 Symbols 外 最 为 重要 的 参数 ， 它 是 一 个 字符 向 量 ， 指 定数 据 来 源 ， 默 认为 
“yahoo”， 若 要 从 Google 上 获取 数据 ， 则 改 为 “google” 即 可 。 


14.2.2 计算 分 析 


接 下 来 我 们 就 可 以 从 网 站 下 载 数 据 了 。 由 于 分 析 目 的 是 构建 资产 组 合 的 有 效 前 沿 ， 所 以 我 们 
需要 同时 获取 多 支 股票 的 交易 数据 ， 为 简化 计算 ， 这 里 以 三 支 股 票 : IBM、SPY、YHOO 为 例 。 

> install .packages ("quantmod") 

> library (quantmod)  # 载 入 程序 包 
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> getSymbols (c('IBM','SPY', 'YHOO')) # 获 取 数 据 
[Wi “IBM" "SpYy™ "YHOO" 


这 样 导 入 的 数据 结构 非常 完整 , 包括 交易 的 日 期 (2007-01-03 至 当前 时 点 )、 开盘 价 、 最 高 价 、 
最 低 价 、 收 盘 价 、 交 易 量 和 调整 收盘 价 7 个 变量 。 


第 二 步 ， 计 算 收益 率 和 矩阵 。 由 于 我 们 获得 的 是 日 交易 数据 ， 因 此 需要 计算 日 收益 率 ， 这 一 步 
通过 函数 dailyReturnO 即 可 完成 ， 并 通过 函数 merge0 将 三 支 股 票 收 益 率 序列 合并 为 和 矩阵。 程序 包 
quantmod 中 包含 计算 不 同期 限 收 益 率 的 函数 ， 如 weeklyReturn、monthlyReturn、quarterlyReturn 
和 annualReturn 等 。 

> IBM ret=dailyReturn (ITBM) 


> SPY ret=dailyReturn (SPY) 
> YHOO ret=dailyReturn (YHOO) 


> data=merge (IBM ret,SPY ret,YHOO ret) # 合 并 收益 率 


第 三 步 ， 计 算 投 资 组 合 的 有 效 前 沿 。 这 里 必须 用 到 程序 包 fPortfolio 中 的 函数 
portfolioFrontier0， 它 的 输入 参数 必须 是 时 间 序 列 对 象 ， 即 timeSeries 类 ， 因 此 使 用 之 前 应 该 先 将 
数据 格式 转换 为 时 序 对 象 ， 可 通过 函数 as. timeSeries() 完 成 转换 ， 它 存在 于 程序 包 timeSeries 中 。 

> library (timeSeries) 
data=as .timeSeries (data) # 转 换 对 和 象 


install .packages ("fPortfolio") 
library (fPortfolio) 


Frontier=portfolioFrontier (data) # 计 算 有 效 前 洛 
Frontier 


WN 


Title: 

MV Portfolio Frontier 
Estimator: covEstimator 
Solver: solveRquadprog 
Optimize: minRisk 
Constraints: LongOnly 
Portfolio Points: 5 of 50 


Portfolio Weights: 
daily.returns daily.returns.1 daily.returns.2 


1 0.0000 1.0000 0.0000 
13 0.3713 0.6287 0.0000 
2 0.6465 0.2901 0.0635 
37 0.7791 0.0000 0.2209 
50 0.0000 0.0000 1.0000 


Covariance Risk Budgets: 
daily.returns daily.returns.1 daily.returns.2 
0.0000 1.0000 0.0000 
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13 0.3569 0.6431 0.0000 
25 0.6658 0.2650 0.0692 
37 0.7169 0.0000 0.2831 
50 0.0000 0.0000 1.0000 


Target Return and Risks: 


mean mu Cov Sigma CVaR VaR 
1 O0003 


0.0003 0.0146 0.0146 0.0358 0.0226 
13 O0003. D0003 O037 "0.0137 O0331 Vv.0209 
25 0.0004 0.0004 0.0139 0.0139 0.0333 0.0218 
37 O00005 O00005 QO.0L50 0.0150 0.0353 0.0233 
50 0.0006 0.0006 0.0273 0.0273 0.0584 0.0360 


Description: 
Tue Feb 18 23:16:10 2014 by user: Administrator 


计算 的 结果 分 为 多 个 部 分 , 首先 title 部 分 给 出 均值 一 方差 有 效 前 沿 计算 过 程 中 涉及 的 相关 方 
法 。Portfolio Weights 部 分 返回 的 是 三 支 股票 在 投资 组 合 中 的 头寸 比例 ， 第 一 列 的 数字 表示 从 绘 
图 中 的 50 个 点 中 选取 有 代表 性 的 5 个 点 ， 每 行 表示 在 该 点 上 股票 在 组 合 中 的 比例 ， 行 和 都 是 1。 


例如 ， 对 于 第 三 行 ， 它 表示 的 是 第 25 个 点 在 投资 组 合 中 将 总 头寸 以 64.65%、29.01%、6.35% 
的 比例 分 散 到 三 支 股票 标的 上 。Covariance Risk Budgets 表示 各 点 的 协 方差 风险 预算 矩阵。Target 
Return and Risks 表示 目标 组 合 的 预期 收益 率 和 风险 数据 ， 也 就 是 有 效 前 沿 绘图 的 依据 。 


计算 出 Frontier 后 , 可 以 调用 函数 plotO 直 接 绘图 。 输 入 如 下 指令 后 , R 会 返回 一 组 绘图 选项 ， 
最 后 以 “selection:” 结 尾 ， 这 时 我 们 可 以 输入 相应 的 图 形 编 号 ， 从 而 选择 不 同 的 绘图 结果 。 


> plot (Frontier) 
Make a plot selection (or 0 to exit): 


Plot Efficient Frontier 

Add Minimum Risk Portfolio 

Add Tangency Portfolio 

Add Risk/Return of Single Assets 

Add Equal Weights Portfolio 

Add Two Asset Frontiers [LongOnly Only] 
Add Monte Carlo Portfolios 

Add Sharpe Ratio [Markowitz PF Only] 
Selection: 


OAmDNPOVODP 
am a 0 0 oe0 ee ee 


关于 图 形 编号 ， 输 入 “1” 直 接 绘 出 有 效 前 治 ，2 一 8 表示 在 有 效 前 沿 的 图 形 中 添加 绘图 结果 ， 
其 含义 依次 是 : 最 小 风险 组 合 、 切 线 组 合 、 单 个 资产 的 风险 /收益 、 等 权重 投资 组 合 、 两 资产 投资 
组 合 的 有 效 前 沿 〈 禁 止 卖 裤 )、 蒙 特 卡 洛 模拟 得 到 的 投资 组 合 、 夏 普 比 率 《〈 仅 马 殉 维 蒋 有 效 前 沿 )。 


依次 输入 1 一 8〈 除 去 7， 随 机 模拟 得 到 的 散 点 )， 可 以 得 到 如 图 14.7 所 示 的 完整 图 形 。 
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图 14.7 投资 组 合 有 效 前 沿 


绘图 完成 后 ， 输 入 “0” 或 按 Esc 键 即 可 退出 。 相 比 随机 模拟 方法 ， 直 接 调用 R 软件 中 的 专 
业 程 序 包 可 以 更 快速 、 精 确 地 完成 投资 组 合 有 效 前 沿 的 计算 和 绘图 。 


14.3 ”股票 聚 类 分 析 
14.3.1 概述 


上 一 个 案例 是 股票 投资 组 合 的 最 优化 ， 其 针对 已 有 的 股票 组 合 寻找 它们 的 有 效 边 界 。 但 是 目 
前 我 国 股票 市 场 上 有 几 千 支 股票 ， 应 该 如 何 选择 一 个 投资 组 合 呢 ? 所 以 在 进行 股票 投资 之 前 ， 我 
们 首先 要 对 股票 进行 分 析 和 选择 ， 而 股票 评价 指标 有 很 多 ， 反 映 的 侧重 点 各 不 相同 ， 如 何 把 这 些 
指标 综合 在 一 起 对 股票 进行 分 类 就 变 得 十 分 重要 。 


“板块 ”这 一 概念 是 指 具 有 共同 特征 的 股票 群 ， 股 市 中 的 板块 可 以 从 多 个 角度 来 划分 ， 如 行 
业 、 产 业 、 地 域 等 ， 在 本 例 中 我 们 选取 了 钢铁 行业 的 股票 为 分 析 对 象 。 在 每 个 板块 中 ， 有 几 十 种 
甚至 上 百 种 股票 ， 每 支 股票 背后 又 对 应 着 各 公司 众多 的 财务 指标 ， 面 对 这 么 复杂 的 数据 ， 如 何 才 
能 找 出 具有 相同 特点 的 股票 呢 ? 


聚 类 分 析 是 数据 挖掘 中 的 核心 技术 ， 它 是 通过 数据 建 模 简化 数据 的 一 种 方法 ， 第 12 章 我 们 
已 经 介绍 过 R 软件 中 的 聚 类 分 析 函 数 。 本 例 中 我 们 将 聚 类 分 析 方 法 应 用 到 钢铁 行业 股票 的 考察 中 
去 o 


选取 钢铁 行业 的 20 支 股票 及 7 个 指标 作为 聚 类 分 析 的 原始 依据 ， 数 据 总 结 如 表 14.2 所 示 。 
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表 14.2 ”钢铁 行业 股票 的 原始 数据 


( 亿 元 ) ( 亿 元 ) 增长 率 (元)】 收益 率 入 增长 率 公积金 (元 ) 
0 
604. 
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14.3.2 K-means 聚 类 分 析 


K-means 聚 类 分 析 是 一 种 快速 聚 类 方法 ， 适 合 处 理 大 样本 数据 。K-means 聚 类 分 析 要 求 变量 
为 数值 型 ， 其 基本 思想 是 使 聚 类 性 能 指标 最 小 化 ， 聚 类 准则 函数 计算 数据 集中 每 个 样本 点 到 该 分 
类 中 心 的 距离 平方 和 。 我 们 需要 事先 指定 分 类 数 n， 各 分 类 中 心 的 初 值 可 以 自行 设置 ， 也 可 以 由 
程序 自动 给 出 。 


K-means 聚 类 分 析 采 用 迭代 算法 ， 首 先 根据 分 类 数 n， 为 每 个 类 别 确定 一 个 类 中 心 初 值 ， 然 
后 按 最 小 距离 原则 将 各 样本 分 配 到 邻近 的 类 别 中 ， 得 到 每 个 类 别 的 样本 均值 作为 新 的 类 中 心 ， 如 
此 反复 ， 不 断 调整 各 分 类 中 心 的 位 置 ， 直 到 收敛 ， 最 终 可 以 得 到 n 个 类 别 。 

R 软件 中 实现 K-means 方法 的 函数 是 kmeans()， 它 的 调用 格式 为 


kmeans (x, centers, iter.max = 10, nstart = 1, 
algorithm = c("Hartigan-Wong", "Lloyd", "Forgy", "MacQueen")) 
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其 中 ，x 是 待 研究 的 数据 矩阵 ，centers 是 指定 分 类 个 数 的 数值 或 指定 聚 类 中 心 的 初 值 ， 如 果 
centers 指定 了 聚 类 个 数 ， 则 nstart 表示 选取 的 随机 集 个 数 ，iter.max 是 最 大 和 迭代 数 ， 默 认为 10; 
algorithm 表示 具体 的 算法 ， 默 认为 Hartigan-Wong 方法 。 


接 下 来 读 取 数据 ， 并 用 K-means 聚 类 方法 把 上 面 的 20 支 股票 分 为 4 组 。 


> stock=read.table("d:/data/stock.txt",header=T) 

> rownames (stock)=stock[,1] 

> KM=kmeans (stock[,2:8],4) 

> KM 

K-means clustering with 4 clusters of sizes 5, 2, 1, 12 


Cluster means: 
Al A2 A3 A4 A5 A6 A7 
229.6783 80.11167 649.795 3.923833 ‘4.937667 70.38167 1.0251833 
240.5400 77.81200 326.826 4.917460 4.096000 51.66800 1.7867600 
778.4000 29.75000 156.380 4.850000 4.320000 28.66000 1.8749000 
67-.8400 ,19,.93375 226.270 3.612625 1.871250 33.50250 0.9650875 


SND 


Clustering vector: 


大 钢 不 锈 安阳 钢铁 鲁 银 投资 南 钢 股份 武钢 股份 菜 钢 股份 柳 钢 股份 凌 钢 股份 


2 1 1 1 2 I 1 4 
华 凌 股 份 济南 钢铁 唐 钢 股份 杭 钢 股份 安泰 股份 承德 钒 钛 部 钢 松 山 本 钢板 材 
4 4 4 4 4 4 4 4 


八 一 钢铁 宝钢 股份 ”网 博 士 广 钢 股份 
4 3 4 4 


Within cluster sum of squares by cluster: 
[i) S7468,.91 "27209,.32 0.00 229013.29 
(between SS / total SS = 91.8 $%) 


Available components: 


[1] "cluster" "centers" "totss" "withinss" 
[5] "tot.withinss" "betweenss" "size" > KM=kmeans (stock[,2:8],4) 


分 析 结 果 中 的 Clustering vector 给 出 了 每 支 股 票 对 应 的 类 别 ， 用 函数 sort() 对 分 类 情况 排序 ， 
并 整理 得 到 结果 : 

> sort (KM$Scluster) 

安阳 钢铁 鲁 银 投资 南 钢 股份 菜 钢 股份 柳 钢 股份 大 钢 不 锈 武钢 股份 宝钢 股份 


4 1 1 1 1 2 2 3 
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凌 钢 股份 华 凌 股 份 济南 钢铁 唐 钢 股份 杭 钢 股份 安泰 股份 承德 钒 钛 部 钢 松山 
四 4 4 4 4 4 4 4 
本 钢板 材 八 一 钢铁 ”了 觅 博士 广 钢 股份 


4 4 了 4 


14.3.3 ”层次 聚 类 分 析 


基于 层次 的 聚 类 方法 在 第 12 章 已 经 介绍 过 ， 其 基本 思想 是 ， 初 始 将 各 个 样本 各 自作 为 一 类 ， 
确定 好 计算 样本 之 间距 离 和 类 之 间距 离 的 方法 ， 然 后 把 最 近 的 两 类 《两 个 点 ) 合并 成 一 类 ， 再 把 
剩 下 的 最 近 的 两 类 合并 成 一 类 ;重复 合并 距离 最 近 的 两 个 类 ， 这 样 下 去 ， 每 次 都 减少 一 类 ， 直 到 
最 后 只 有 一 个 大 类 为 止 。 自 下 而 上 地 ， 最 终 形成 了 层次 关系 。 


选择 欧式 距离 作为 计算 样本 之 间 的 距离 ， 并 基于 Ward 方法 进行 系统 聚 类 ， 在 R 中 用 函数 
hclust0 实 现 具体 过 程 ， 并 绘制 谱系 图 。 与 Kmeans 方法 一 样 ， 我 们 最 后 仍 把 20 支 股票 分 为 4 类 。 
在 R 中 输入 如 下 指令 : 

> subset=subset (stock, select=2:8) # 去 掉 第 一 列 的 股票 名 称 

> d=dist (subset) # 计 算 欧 式 距离 

> hc=hclust (d,method="ward") # 进 行 Ward 聚 类 

> plclust (hc) ”# 绘 制 分 层 聚 类 的 谱系 图 


> rect.hclust (hc, k=4, border="red") 


绘制 结果 如 图 14.8 所 示 。 


| 


| 
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2500 
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1500 


500 











d 
hclust (*, "ward") 


图 14.8 ”分 层 聚 类 的 谱系 图 
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聚 类 谱系 图 直观 地 显示 了 聚 类 的 过 程 ， 从 图 14.8 中 可 以 清楚 地 看 出 各 种 股票 的 归属 。 可 以 发 
现 ， 运 用 分 层 聚 类 方法 对 股票 分 类 的 结果 与 K-means 聚 类 方法 十 分 一 致 ， 唯 一 不 同 的 仅仅 是 “ 柳 
钢 股份 ”的 类 别 。 


每 个 类 别 的 股票 都 具有 其 各 自 的 特征 , 结合 它们 的 财务 指标 , 我 们 可 以 总 结 出 : 第 一 类 的 “ 宝 
钢 股 份 ” 是 中 国 总 资产 规模 最 大 、 最 现代 化 的 钢铁 联合 企业 ， 是 比较 传统 的 钢铁 公司 ， 其 综合 竞 
争 力 很 强 。 对 于 这 样 的 股票 ， 它 无 论 是 涨 还 是 跌 ， 幅 度 都 不 会 很 大 ; 第 三 类 股票 总 体 来 说 处 于 均 
衡 位 置 ， 有 一 定 的 投资 效果 ， 但 不 明显 ; 最 后 一 类 属于 潜力 型 的 股票 ， 未 来 前 景 一 片 大 好 。 


聚 类 分 析 能 综合 多 项 财务 指标 来 反映 上 市 公司 的 盈利 能 力 和 发 展 状态 ， 从 而 帮助 我 们 根据 多 
个 特征 对 股票 分 类 和 评估 ， 在 此 基础 上 进行 股票 投资 组 合 筛选 ， 会 更 加 容易 。 


R 在 数据 预测 中 的 应 用 


预测 分 析 是 很 多 行业 都 非常 需要 的 一 项 方法 和 技术 , 例如 经 济 走势 需要 预测 GDP 和 CPI, 气 
象 需要 预测 未 来 几 天 的 天 气 变化 ， 农 业 需 要 预测 农作物 的 长 势 和 产量 ， 甚 至 篮球 比赛 也 会 预测 对 
战 双 方 的 胜 负 情 况 。 


随 着 数据 积累 越 来 越 多 ， 如 何 使 用 统计 软件 实现 对 数据 的 深入 挖掘 和 预测 成 为 许多 行业 面临 
的 问题 。 数 据 预测 主要 有 两 个 方面 : 回归 分 析 预 测 和 时 间 序 列 预测 ， 本 章 就 这 两 部 分 来 分 别 举 实 
例 说 明 R 在 预测 方面 的 应 用 。 


15.1 回归 分 析 预 测 
15.1.1 概述 


回归 分 析 预 测 法 ， 是 在 分 析 自 变量 和 因 变 量 之 间 相 关 关 系 的 基础 上 ， 建 立 变量 之 间 的 回归 方 
程 ， 并 将 回归 方程 作为 预测 模型 ， 根 据 自 变量 在 预测 期 的 数量 变化 来 预测 因 变 量 ， 因 此 ， 回 归 分 
析 预 测 法 是 一 种 重要 的 预测 方法 。 当 我 们 对 未 来 发 展 状况 和 水 平 进行 预测 时 ， 如 果 能 将 影响 预测 
对 象 的 主要 因素 找到 ， 并 且 能 够 取得 其 数量 资料 ， 就 可 以 采用 回归 分 析 预 测 法 进行 预测 。 它 是 一 
种 具体 的 、 行 之 有 效 的 、 实 用 价值 很 高 的 常用 市 场 预测 方法 。 


回归 分 析 预 测 法 有 多 种 类 型 。 依 据 相 关 关 系 中 自 变量 的 个 数 不 同 分 类 ， 可 分 为 一 元 回归 分 析 
预测 法 和 多 元 回归 分 析 预 测 法 。 在 一 元 回归 分 析 预 测 法 中 ， 自 变量 只 有 一 个 ， 而 在 多 元 回归 分 析 
预测 法 中 ， 自 变量 有 两 个 以 上 。 依 据 自 变量 和 因 变 量 之 间 的 相关 关系 不 同 ， 可 分 为 线性 回归 预测 
和 非 线性 回归 预测 。 

15.1.2 ”实战 案例 


人 口 老龄 化 是 几乎 全 球 各 国都 面临 的 一 个 现实 问题 ， 随 着 人 类 生活 水 平 的 提高 、 医 疗 技术 的 
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进步 ， 人 类 的 寿命 不 断 延 长 ， 各 国 的 人 口 死亡 率 逐 年 下 降 。 社 会 的 老龄 化 会 带 来 一 系列 问题 ， 影 
响 一 国 的 经 济 、 政 策 和 发 展 等 方方面面 ， 因 此 死亡 率 的 准确 预测 对 一 个 国家 而 言 十 分 重要 。 


在 第 4 章 中 ， 我 们 曾经 绘制 过 一 个 瑞典 死亡 率 数据 的 三 维 图 ， 这 一 数据 集 来 自 人 类 死亡 率 数 
据 库 (HMD;2007)， 提 供 了 1951-2005 年 瑞典 的 人 口 信息 。 这 是 一 个 多 变量 的 数据 集 ， 变 量 的 描 
述 如 表 15.1 所 示 。 我 们 的 研究 目的 是 拟 合 瑞典 的 死亡 率 模 型 ， 选 取 其 中 的 男性 人 口 数据 ， 寻 找 死 
亡 率 与 年 份 、 年 龄 之 间 的 关系 ， 从 而 根据 拟 合 的 模型 对 未 来 做 出 预测 。 


表 15.1 瑞典 死亡 率 数据 描述 
rE 
出 性 生存 人 
四 EE 
男人 
对 数 田 性 生存 人 


研究 多 变量 关系 的 统计 模型 有 很 多 ， 死 亡 率 模型 也 有 很 多 ， 本 例 中 我 们 选择 前 面 介绍 过 的 广 
义 线 性 模型 ， 模 拟 瑞典 的 死亡 率 与 年 龄 和 年 份 之 间 的 关系 。 一 个 完整 的 数据 分 析 过 程 包括 很 多 步 
又 ， 模 型 是 其 主干 ， 但 初步 的 描述 、 探 索性 分 析 以 及 最 后 的 结论 都 是 必 不 可 少 的 部 分 。 


(1) 数据 的 处 理 和 描述 


首先 要 说 明 的 一 点 是 ， 实 际 分 析 中 得 到 的 数据 往往 是 未 经 过 处 理 的 ， 所 以 可 能 含有 缺失 值 、 
异常 值 等 诸多 问题 数据 ， 所 以 读 入 数据 后 的 第 一 步 就 是 进行 一 定 的 处 理 。 


在 瑞典 死亡 率 的 数据 集中 ， 共 包含 6000 多 条 记录 ， 在 缺失 值 相 对 不 算 太 多 的 情况 下 ， 吻 除 
是 最 快捷 的 处 理 办 法 ， 使 用 函数 na.omit0 完 成 。 对 于 死亡 率 数 据 而 言 ， 有 一 个 特殊 点 是 取 值 范 围 
0<4g< 和 1， 不 在 此 范围 内 的 点 均 视 为 异常 值 ， 也 应 当 剔 除 ， 否 则 会 影响 拟 合 效果 。 


于 是 ， 在 R 中 输入 如 下 指令 读 取 并 预 处 理 数据 : 


> setwd("d:/data") #i 设 置 文件 读 取 的 路 径 

> mortality=read.csv('swedish mortality.csv',header=T) 
> mortality=na.omit (mortality) 

> mortality=mortality[mortality$q male>0,] 

> mortality=mortality[mortality$q male<=1,] 

>attach (mortality) 


整理 好 数据 之 后 ， 绘 制 散 点 图 是 查看 待 研究 变量 之 间 关 系 的 最 直接 方式 ， 本 例 构建 广义 线性 
模型 涉及 多 个 变量 ， 可 以 分 别 绘制 三 维和 二 维 的 散 点 图 来 具体 分 析 。 


三 维 图 要 用 到 程序 包 rgl 中 的 函数 plot3d0， 绘 制 的 三 维 散 点 图 可 以 拖 动 鼠 标 旋转 ， 以 得 到 合 
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适 的 观察 图 像 的 角度 。 
> library (rgl1) 
> plot3d (Year,Age,q male,col='grey',type='p',zlim=1) 
> # 二 维 散 点 图 
> par (mfrow=c (1,2)) 
> plot (Age,1l0og (q male) main=' 年 龄 与 死亡 率 (对 数 )') 
> plot (Year, lo0g (q_male) ,main=' 年 份 与 死亡 率 (对 数 ) ') 


Vv 


layout (1) # 取 消 图 形 区 域 拆 分 
> plot (Age,L male exp,main=' 年 龄 与 对 数 生 存 人 数 ') 


绘制 图 形 分 别 如 图 15.1、 图 15.2 及 图 15.3 所 示 。 
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图 15.1 变量 关系 三 维 散 点 图 
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图 15.2 变量 关系 一 一 二 维 散 点 图 
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图 15.3 生存 人 数 一 年 龄 散 点 图 
根据 初步 的 图 形 描述 ， 我 们 可 以 发 现 变量 之 间 的 几 条 规律 性 特征 : 
Q@ 随 着 年 龄 的 增加 ， 瑞 典 男 性 人 口 死 亡 率 的 总 体 趋势 是 逐渐 上 升 。 但 在 0~20 岁 阶段 ， 死 亡 


率 由 新 生 儿 时 期 的 高 值 逐渐 降低 , 随后 升 高 , 并 具有 一 定 的 波动 。 这 些 基本 特征 都 满足 死亡 率 “ 浴 
盆 曲 线 ” 的 形状 。 

@ 人 口 老龄 化 是 近年 来 越发 严重 的 现象 ， 在 图 15.2( 右 〉 中 我 们 也 可 以 发 现 ， 散 点 有 向 下 
运动 的 趋势 ， 这 说 明 死 亡 率 (对 数 ) 随 着 时 间 的 推移 不 断 降 低 ， 这 直接 导致 了 老龄 化 社会 的 形成 。 

@ 生存 人 数 随 着 年 龄 升 高 逐渐 减少 ， 这 是 非常 直观 的 结论 。 

(2) 拟 合 研究 对 象 的 分 布 类 型 

由 村 

死亡 率 = 死亡 人 数 /生存 人 口 数 

人 数 是 可 以 直接 观测 到 的 数据 ， 再 根据 人 口 数 计算 死亡 率 ， 因 此 死亡 率 建 模 的 问题 就 转化 为 

死亡 人 数 的 预测 。 我 们 将 研究 变量 确定 为 死亡 人 数 。 


分 布 拟 合 在 预测 中 是 一 个 非常 重要 的 手段 ， 如 果 可 以 找到 研究 对 象 所 属 的 分 布 类 型 ， 预 测 将 
变 得 更 加 容易 。 我 们 首先 绘制 直方 图 来 观察 一 下 死亡 人 数 的 分 布 〈 见 图 15.4)。 


> hist (Male death, freq=F,breaks=100) 


可 以 看 到 ， 死 亡 人 数 是 一 个 右 偏 分 布 ， 而 且 右 尾 拖 得 很 长 ， 我 们 无 法 找到 一 个 适合 的 分 布 去 
拟 合 它 。 这 时 可 以 对 变量 取 对 数 ， 再 进行 拟 合 。 绘 制图 形 如 图 15.5 所 示 。 

取 对 数 后 ， 变 量 的 分 布 特征 会 更 加 明显 ， 从 图 15.5 中 可 见 ， 对 数 死亡 人 数 有 两 个 峰值 。 事 实 
上 ,“ 双 峰 ” 是 数据 分 布 拟 合 中 很 难 实现 的 一 种 ， 因 为 它 拥有 多 个 参数 ，R 函数 常用 的 和 返 代 算法 往 
往 不 能 求解 出 各 个 参数 的 数值 。 
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Histogram of Male_death 
Histogram of log(Male_death) 





名 5 0 
OO 二 
Male_death 
图 15.4 死亡 人 数 的 直方 图 图 15.5 死亡 人 数 〈 对 数 ) 的 直方 图 


这 里 我 们 可 以 使 用 一 种 相对 简单 的 双 峰 拟 合 方法 : 分 段 拟 合 ， 假 设 数据 是 由 两 个 均值 不 同 、 
方差 不 同 的 正 态 分 布 混合 而 成 ， 观 察 图 形 后 以 数值 6 为 分 段 的 界线 ， 根 据 所 含 样本 的 个 数 确定 各 
部 分 在 混合 分 布 中 所 占 的 比重 ， 以 pi 表示 。 


在 参数 拟 合 的 过 程 中 我 们 要 用 到 程序 包 MASS 中 的 函数 fitdistr0， 它 是 分 布 参数 拟 合 的 “ 快 
捷 方式 ”其 使 用 最 大 似 然 估 计 法 ， 只 需 给 出 分 布 名 称 ， 就 可 以 计算 出 分 布 中 的 参数 值 ， 其 调用 
格式 为 : 


fitdistr(x, densfun, start, ...) 


x 表示 待 拟 合 的 数据 样本 向 量 ; densfun 给 出 分 布 名 称 的 字符 串 , 可 选 的 有 “beta”、“cauchy”、 


“chi-squared”、 “exponential”, “f”、 “gamma”, “geometric”、 “log-normal”、 “lognormal”、 “logistic”、 
“negative binomial” “normal”、“Poisson”、“t” 和 “weibull”，start 给 出 参数 的 初始 值 。 


使 用 函数 fitdistr0， 对 死亡 人 数 〈 对 数 ) 拟 合 双 峰 分 布 的 参数 值 ， 在 R 中 继续 输入 指令 : 
lg.md=log (Male death) 

# 将 数据 分 为 两 部 分 

datal=lg.md[lg.md<6] ;data2=1lg.md[lg.md>6] 

pl=length (datal)/ (length (datal)+length (data2)) # 第 一 个 正 态 分 布 的 比重 

library (MASS) 

paral=fitdistr (datal, 'normal') $estimate # 拟 合 第 一 个 正 态 分 布 的 参数 
para2=fitdistr (data2, 'normal')$estimate # 拟 合 第 二 个 正 态 分 布 

># 计 算 样本 的 双 峰 混合 分 布 拟 合 值 

> p=pl*dnorm(lg.md,paral[1],paral[2])+(1-pl)*dnorm(lg.md,para2[1],para2[2]) 


对 双 峰 分 布 的 两 段 分 别 估 计 参 数值 ,返回 的 两 个 结果 ( 正 态 分 布 的 均值 和 标准 差 ) 存 放 在 paral 


和 para2 中 ， 从 而 对 每 个 样本 点 ， 我 们 可 以 计算 双 峰 分 布 的 拟 合 值 ， 并 将 其 存放 在 p 中 。 下 面 绘 
制 经 验 值 和 拟 合 值 作 比 较 : 


YY YY EY Vw 
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> hist (log (Male death) ,freq=F,breaks=100,main=' 经 验 值 和 拟 合 值 ', ylim=c (0,0.33)) 
> points (lg.md,p) # 描 出 拟 合 值 的 点 


绘制 结果 如 图 15.6 所 示 。 
经 验 值 和 拟 合 值 
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图 15.6 ” 双 峰 分 布 的 经 验 值 和 拟 合 值 


用 KS 检验 来 判断 双 峰 分 布 的 拟 合 效果 ，KS 检验 全 称 为 Kolmogorov-Smirnov 检验 ， 用 于 判 
断 单一 样本 数据 是 否 符合 一 个 理论 的 已 知 分 布 。 检 验 原理 是 以 样本 数据 的 累计 频数 分 布 与 特定 理 
论 分 布 作 比较 ， 若 两 者 的 差距 很 小 ， 则 可 以 判断 样本 来 自 该 分 布 族 。 


假设 检验 是 : 
妃 。: 样本 所 来 自 的 总 体 服从 某 特 定 分 布 。 
互 : 样本 所 来 自 的 总 体 不 服从 某 特定 分 布 。 


以 所 (X) 表示 理论 分 布 的 分 布 函 数 ，F(x) 表示 一 组 随机 样本 的 累计 频率 函数 ,它们 之 间 的 差 
距 即 检验 统计 量 ， 定 义 为 


D=max 





F(x) -Fo)| 


KS 检验 有 自己 的 临界 值 表 ，D(n,a) 是 显著 性 水 平 为 〖、 样 本 为 n 时 的 拒绝 域 临界 值 。 那 么 
当 刀 > D(n,a) 或 P 值 小 于 显著 性 水 平时 ， 拒 绝 原 假设 。 在 R 中 用 函数 ks.test0 实 现 KS 检验 ， 调 
用 格式 为 

ks.test(x, y, ..., alternative = cl("two.sided", "less", “greater"), exact = NULL) 

x 是 样本 数据 的 数值 向 量 ; y 可 以 是 表示 样本 对 应 的 累积 分 布 函数 值 的 向 量 ， 也 可 以 是 表示 
分 布 名 称 的 字符 串 ， 如 pnorm; alternative 指定 检验 的 方向 。 


># 计 算 双 峰 分 布 的 累积 分 布 函数 
> F.mix=pl*pnorm(lg.md,paral[l1],paral[2])+(1-pl)*pnorm(lg.md,para2[1],para2[2]) 
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> ks.test (lg.md,F.mix) 
Two-sample Kolmogorov-Smirnov test 


data: lg.md and F.mix 
D = 0.9881, p-value < 2.2e-16 
alternative hypothesis: two-sided 


Warning message: 
In ksstest (Lgamad, F.nmBe)e: 
p-value will be approximate in the presence of ties 


检验 结果 : P 值 远 小 于 0.05 的 显著 性 水 平 ， 应 该 拒绝 原 假设 ， 说 明 拟 合 的 双 峰 分 布 还 无 法 确 
切 地 描述 死亡 人 数 〈 对 数 ) 的 分 布 情况 。 


考虑 到 获得 的 数据 集中 包含 多 个 变量 ， 我 们 可 以 从 变量 关系 的 角度 构建 模型 ， 去 估计 死亡 人 
数 。 一 个 国家 的 死亡 人 数 与 年 龄 、 年 份 必然 有 着 密切 联系 ， 从 上 面 的 散 点 图 中 也 可 以 看 出 这 一 点 。 
另外 ， 生 存 人 数 也 是 一 个 重要 的 变量 ， 在 它 的 基础 上 ， 我 们 才能 判断 死亡 人 数 的 大 小 。 


(3) 普通 线性 回归 


研究 多 个 变量 的 关系 ， 普 通 多 元 线性 回归 是 最 简单 的 方式 ， 在 回归 方程 中 引入 解释 变量 : 年 
龄 (Age)、 年 份 (Year) 和 生存 人 口 数 (L_male_exp)， 首 先 用 普通 最 小 二 乘法 拟 合 死亡 人 数 。 


> ols=lm(Male death~AgetYear+L male exp) 
> summary (ols) 


Call: 
lm(formula = Male death ~ Age + Year + L male exp) 


Residuals: 
Min 10 Median 30 Max 
-484.6 -277.7 -56.9 201.8 1727.4 


Coefficients: 

Estimate Std,. Error 七 Value Pr(>|t|) 
(Intercept) -2.663e+03 5.342e+02 -4.984 6.42e-07 *** 
Age 1.940e+01 2.037e-01 95.222 < 2e-16 *** 
Year 7.183e-02 2.707e-01 0.265 (op hal 
Bmale "exp 1.99JTet02 2 798e+00 ' /11.142 “<T2e-16 *** 


SO coeass Gh O00 Te OO0E "SY O03 "ee OBE 


Residual standard error: 324.4 on 5728 degrees of freedom 
Multiple R-squared: 0.6144, Adjusted R-squared: 0.6142 
F-statistic: 3043 on 3 and 5728 DF, p-value: < 2.2e-16 


从 回归 的 结果 可 以 发 现 ， 变 量 Year 的 回归 系数 并 不 显著 ， 并 且 R=0.6142， 说 明 回归 方程 对 
观测 值 的 拟 合 程度 一 般 ， 因 此 普通 线性 回归 并 不 是 最 理想 的 模型 。 
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(4) 广义 线性 模型 


接 下 来 我 们 考虑 广义 线性 模型 ， 将 年 龄 和 年 份 作为 分 类 变量 ， 每 一 个 年 龄 和 每 一 个 年 份 都 是 
一 个 因子 水 平 。 


以 y 表 示 死 亡 人 数 ，n 表示 风险 暴露 数 即 生存 人 口 数 (其 对 数值 为 glm 函数 中 的 offset 项 )， 
x 是 解释 变量 ， 包 括 年 龄 和 性 别 ， 模 型 可 以 写 为 


E(y,)= 1 =explin(ny)+x;p] 


年 龄 有 110 个 水 平年 份 有 55 个 水 平 ， 所 以 整个 模型 中 共 包 含 164 个 参数 〈109+54+1)。 我 
们 选择 负 二 项 广义 线性 模型 ， 在 R 中 通过 程序 包 MASS 中 的 函数 glm.nb(0 来 实现 ， 它 的 调用 方式 
与 glm() 类 似 ， 但 抵消 项 offset 不 再 是 一 个 单独 的 参数 ， 而 是 以 函数 offset0 的 形式 进入 模型 的 
formula 中 。 


> m.nb=glm.nb (Male death~factor (Age)+factor (Year)+offset (L male exp) ) 
> summary (m.nb) 


Call: 

glm.nb (formula = Male death ~ factor (Age) + factor (Year) + offset(L male exp), 
init.theta = 113.907256, link = 1og) 

Deviance Residuals: 


Min 1Q Median 3Q Max 
-7.5555 -0.68180 -0.0669 0.4861 6€.7294 


Coefficients: 

Estimate Std. Error z Value Pr(>|z|) 
(Intercept) -4.32023 0.01851 一 233.396 < 2e-16 *** 
factor (Age)1 -2.62966 0.02840 -92.592 < 2e-16 *** 
factor (Age)2 -2.97549 0.03144 -94.631 < 2e-16 *** 


factor (Year) 2004 -0.66468 0.01763 -37.711 < 2e-16 *** 
factor (Year) 2005 -0.66750 0.01761 -37.906 .< 2e-16. *** 


Signi£f. codess 0 Te 0.000 :**t O01 STAR O01 Tl 
(Dispersion parameter for Negative Binomial(113.9073) family taken to be 1) 


Null deviance: 1711407.4 on 5731 degrees of freedom 
Residual deviance: 7506.3 on 5570 degrees of freedom 
AIC: 53628 


Number of Fisher Scoring iterations: 1 


Theta: 113.91 
St LEE. S89 


2 x log-likelihood: -53302.22 
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根据 分 析 的 结果 发 现 ， 所 有 因子 水 平 基本 都 显著 ， 残 差 的 deviance 为 7506。 对 回归 结果 作 方 
差分 析 ， 检 验 各 个 因子 的 显著 性 。 

> anova (lm.nb,test='Chisq') 

Analysis of Deviance Table 

Model: Negative Binomial (113.9073), link: log 

Response: Male death 

Terms added sequentially (first to last) 


Df Deviance Resid. Df Resid. Dev Pr(>Chi) 


NULL S73 1711407 

factor (Age) 107™1692021 5624 19386 < .2.26~=16 
factor (Year) 54 11880 5570 T3506 <22 .26F516 二 二 
Sitoqnaf, codess © WH O00 HY O01. xs Qi08 To O01 “1 


可 以 发 现 ， 两 个 因子 Age 和 Year 都 高 度 显著 ， 说 明 它 们 对 死亡 人 数 的 估计 占有 重要 作用 。 
最 后 ， 绘 制 残 差 的 散 点 图 进行 广义 线性 模型 拟 合 效果 的 诊断 。 


> par (mfrow=c (2, 2)) 
> plot (m.nb) 


绘制 结果 如 图 15.7 所 示 。 
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图 15.7 广义 线性 模型 的 诊断 图 


残 差 诊断 图 15.7 一 共有 四 组 ， 第 一 张 是 残 差 的 散 点 图 ， 数据 点 基本 均匀 地 分 布 在 横 轴 ) 天 0 两 
侧 ， 诊 断 出 两 个 异常 值 点 ， 分 别 为 样本 307 和 5626; 第 二 张 是 QQ 图 ， 图 中 的 点 大 部 分 都 集中 于 
y=x 这 一 直线 附近 ， 同 样 诊断 出 两 个 异常 值 点 ;第 三 张 是 位 置 -尺度 图 ， 样 本 的 残 差 值 越 小 ， 散 点 
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分 布 越 靠 下 ， 而 位 置 较 高 的 几 个 点 则 为 异常 值 点 ;第 四 张 图 是 曲 式 距 离 图 ， 图 中 的 曲 式 距离 表示 
每 一 个 数据 点 对 回归 模型 的 影响 力 ， 各 样本 点 应 比较 均匀 ， 曲 式 距离 偏 大 的 点 (如 307) 就 可 以 
诊断 为 异常 值 点 。 


为 了 模型 拟 合 效果 更 好 ， 我 们 把 上 面 四 组 图 中 标识 出 的 异常 值 点 都 去 除 ， 输 入 如 下 指令 : 


> location=c(1,102,307,5414,5626) 
> mortality=mortality[-location,] 
> attach (mortality) 


(5) 模型 改进 

为 了 改进 模型 以 得 到 更 好 的 预测 结果 ， 除 了 剔除 蜡 常 值 以 外 ， 我 们 还 应 该 对 模型 中 的 参数 个 
数 加 以 控制 。 模 型 中 所 包含 的 参数 个 数 对 拟 合 效 果 有 着 关键 作用 ， 很 显然 ， 参 数 越 多 ， 估 计 结 果 
的 误差 越 大 。 


在 上 面 的 负 二 项 广义 线性 模型 中 ， 年 龄 和 年 份 两 个 分 类 变量 分 别 有 110 和 55 个 水 平 数 ， 这 
直接 导致 模型 中 包含 的 参数 过 多 。 


减少 模型 参数 的 一 个 快捷 办 法 是 在 回归 方程 中 对 年 龄 和 年 份 分 别 引 入 正 交 多 项 式 〈 函 数 poly 
可 以 实现 )， 并 且 正 交 性 可 以 去 掉 偏 回归 系数 间 的 相关 性 ， 一 举 两 得 。 从 而 ， 广 义 线性 模型 可 以 
表示 为 如 下 形式 (对 数 形式 ): 


In(p)=In(n,)+PB +Bit.+pB,i +B ujt.+pB,,o]" 


其 中 ，hi+…+p,i? 是 以 年 龄 问 量 为 解 的 特征 多 项 式 ， 自 由 度 为 p; Bsnj+…+B,wsj” 是 以 
年 份 向 量 为 解 的 特征 多 项 式 ， 自 由 度 为 gq。 模型 改进 的 关键 就 在 于 p、g 取 值 的 选择 ，47C 统计 量 
以 模型 参数 个 数 为 首要 考量 ， 所 以 我 们 一 般 使 用 41C 准则 作为 判断 标准 ， 


AIC =n:In(G;)+2k ， 其 中 大 为 参数 的 个 数 


经 过 多 次 尝试 你 会 发 现 ， 当 p=25，g=4 时 ，41C=53272; 在 其 他 情况 下 47C 均 大 于 此 值 (无 
约束 时 为 73494)， 从 而 得 到 了 30 个 参数 的 最 优 模型 (25+4+1)。 


> model.final <- glm.nb (Male death~poly (Age,25)+poly (Year, 4) toffset (L male exp)) 
> options (digits=2) 
> summary (model .final) 


Call: 
glm:nb(formula = Male death ~ polyl(Age, 25) + polyl(Year, 4) + 
offset(L male exp), init,.theta = 121.1366612, link = 1og) 


Deviance Residuals: 
Min 1lQ Median 30Q Max 
-5.797 -0.706 -0.070 0.498 6.332 
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Coefficients: 

Estimate Std. Error z value Pr(>|z|) 
(Intercept) =4.73709 ”0.00230" =2063~76" < 2e-16, *** 
poly(Age, 25)1 180.18583 0.23295 773.49 < 2e-16 *** 
polyl(Age, 25)2 29.88096 0.25443 117.44 < 2e-16 *** 


poly(Age, 25)24 0.98046 0.18188 5.39 7.0e-08 *** 
poly (Age, 25)25 -0.36666 0.18021 -2.03 0.042 * 

poly(Year, 4)1 -13.20693 0.12441 -106.15 < 2e-16 *** 
poly(Year, 4)2 -3.96549 0.12342 -32.13 < 2e-16 *** 
poly(Year, 4)3 -0.77015 0.12359 -6.23 4.6e-10 *** 
poly(Year, 4)4 1.30293 0.12354 10.55 < 2e-16 *** 


Sionit Sodens OR'ven ODO wt QQ wl MO 0 
(Dispersion parameter for Negative Binomial(121.1367) family taken to be 1) 


Null deviance: 1786314.3 on 5726 degrees of freedom 
Residual deviance: 7651.7 on 5697 degrees of freedom 
和 RICE: S3272 


Number of Fisher Scoring iterations: 1 
Theta: 121.14 

SG 了 zc 4.26 

2 x log-likelihood: -53210.35 


通过 几 个 重要 的 指标 比较 改进 模型 和 负 二 项 广义 线性 模型 的 拟 合 效果 《〈 见 表 15.2)， 可 以 发 
现 尽管 残 差 deviance 有 所 增加 ,但 47C 统计 量 明显 改善 。 因 此 ， 我 们 选择 加 入 多 项 式 改进 的 模型 
作为 最 终结 果 。 


表 15.2 改进 模型 和 负 二 项 GLM 的 对 比 


| 


(6) 模型 的 拟 合 结果 


至 此 ， 我 们 已 经 完成 了 对 瑞典 死亡 人 数 的 广义 线性 模型 拟 合 ， 为 了 更 直观 地 展现 拟 合 效果 ， 
通过 绘图 对 比 实际 观测 值 与 拟 合 值 。 


R 中 的 函数 predict0 可 以 直接 计算 所 有 原始 样本 的 GLM 模型 拟 合 值 , 也 可 以 根据 已 有 模型 结 
果 ， 对 新 的 数据 作 预 测 ， 调 用 格式 如 下 : 


## S3 method for class '‘'glm"' 
predict (object, newdata = NULL, type = c("link", "response", "terms"), 
Se.fit = FALSE, dispersion = NULL, terms = NULL, na.action = na.pass, ...) 
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object 是 glm0 和 glm.nb() 一 类 的 函数 返回 的 拟 合 结果 对 象 ，newdata 是 存放 预测 数据 的 数据 
框 ; type 指定 预测 所 需 的 类 型 ， 默 认 是 线性 预测 ，se.fit 是 逻辑 值 ， 表 示 是 否 需 要 标准 误差 ， 默认 
为 FALSE, 不 返回 标准 误差 ;dispersion 给 出 GLM 拟 合 的 过 离散 程度 ， 用 于 计算 标准 误差 ， 如 果 
省 略 ， 将 直接 使 用 summaryO 返 回 结果 中 的 dispersion 参数 。type=“term” 时 ， 将 返回 预测 的 所 有 
项 目 ， 而 参数 terms 可 以 通过 字符 向 量 的 形式 ， 指 定 要 返回 哪些 项 目 ; na.action 表示 遇 到 缺失 值 
时 应 采取 的 措施 。 

> pre.final=predict (model.final) # 计 算 拟 合 值 

> layout (1) # 取 消 图 形 区 域 拆 分 

> plot (Male_deathvexp (pre.final) ,xlab=' 观 测 值 ', ylab=' 拟 合 值 ' ,main=' 正 交 多 项 式 改 进 模型 ') 

> abline (0,1,col='red') # 务 y=x 直线 


绘制 结果 如 图 15.8 所 示 。 
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图 15.8 ”样本 观测 值 与 拟 合 值 


以 样本 的 观测 值 作 为 x 轴 ， 拟 合 值 作为 》 轴 绘制 散 点 图 ， 若 一 个 模型 的 预测 效果 较 好 ， 样 本 
的 观测 值 与 拟 合 值 比较 一 致 ， 那 么 散 点 应 集中 于 直线 y=x， 即 图 中 的 红色 直线 。 


根据 得 到 的 广义 线性 模型 ， 我 们 已 经 寻找 到 了 死亡 人 数 与 年 份 、 年 龄 之 间 的 变量 关系 ， 从 而 
可 以 对 未 来 进行 预测 。 用 死亡 人 数 除 以 生存 人 数 得 到 死亡 率 的 拟 合 值 ， 与 死亡 率 最 密切 相关 的 变 
量 是 年 龄 ， 所 以 找到 死亡 率 随 年 龄 变化 的 模式 对 预测 十 分 重要 。 

> q_pre=exp (pre.final) /Male Exp # 死 亡 率 的 拟 合 值 

> plot (Age, 1l0g (q_male) ,pch=' .',main=' 对 数 死 亡 率 ') 

> points (Age, lo0og(q Pre),pch=".",col=2) 

> legend(70,-7,legend=c(' 观 测 值 ', ' 拟 合 值 ') ,lty=1, col=c (1,2)) 


绘制 结果 如 图 15.9 所 示 。 
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对 数 死 亡 率 





log(q_male) 





图 15.9 死亡 率 变化 模式 


15.2 时间 序列 预测 
15.2.1 概述 


一 般 情况 下 , 预测 的 基本 数据 是 时 间 序 列 数 据 , 也 就 是 按照 时 间 先 后 存放 在 数据 库 中 的 数据 。 
在 数据 挖掘 预测 过 程 中 ， 根 据 已 有 的 序列 模式 来 进行 对 未 来 的 预测 判断 。 第 13 章 已 经 介绍 了 一 
些 基 本 的 时 序 模型 ， 本 章 的 最 后 一 个 案例 ， 将 介绍 如 何 利用 R 软件 构建 时 间 序 列 中 的 向 量 自 回 归 
模型 (VAR)。VAR 在 做 样本 外 近期 预测 时 非常 准确 ; 做 样本 外 长 期 预测 时 ， 则 只 能 预测 出 变动 
的 趋势 。 


15.2.2 ”实战 案例 


自 金融 危机 后 ， 世 界 经 济 从 2009 年 开始 逐渐 复苏 ， 我 国 的 经 济 水 平 也 延续 了 一 直 以 来 的 高 
速 发 展 ， 然 而 在 GDP 连年 上 涨 的 背后 ， 伴 随 而 来 的 却 是 物价 的 突飞猛进 ， 造 成 了 我 国 目前 较为 
严重 的 通货 膨胀 。 由 于 我 国 经 济 环境 的 特殊 情况 ， 影 响 CPI 的 因素 越 来 越 庞杂 ， 无 论 是 官方 发 布 
的 数字 还 是 居民 的 切身 感受 都 引起 我 们 反思 : 具体 哪些 指标 对 CPI 影响 较 大 ， 其 影响 机 制 又 是 如 
何 实现 的 呢 ? 


基于 上 述 背 景 , 本 案例 使 用 R 软件 对 我 国 的 消费 者 价格 指数 及 其 相关 因素 进行 向 量 自 回 归 建 
模 ， 从 而 分 析 CPI 上 涨 的 原因 及 传导 机 制 ， 并 依据 模型 结果 ， 对 CPI 的 未 来 走向 做 出 短期 预测 。 

(1) 变量 选择 及 变量 说 明 

首先 ， 下 面 的 各 变量 均 选 择 同 比 数据 (今年 第 n 月 与 去 年 第 n 月 比 )， 主 要 是 为 了 消除 季节 
变动 的 影响 ， 用 以 说 明 本 期 发 展 水 平 与 去 年 同期 发 展 水 平 对 比 而 达到 的 相对 发 展 速度 。 

t: 时 期 ， 以 月 度 为 单位 ， 本 文选 取 2005 年 1 月 -2012 年 11 月 共 119 期 的 宏观 数据 。 
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CPI: 消费 者 价格 指数 


CPI 是 根据 与 居民 生活 有 关 的 产品 及 劳务 价格 统计 出 来 的 物价 变动 指标 ， 通 常 作为 观察 通货 
膨胀 水 平 的 重要 指标 。 


M2: 广义 货币 

经 济 学 中 推动 物价 上 涨 主要 有 两 大 动力 : 需求 拉动 和 成 本 推动 。 其 中 需求 拉动 分 为 货币 因素 
和 实际 需求 ， 货 币 需 求 指 标 由 广义 货币 M2 反映 。 

NEER: BIS 人 民 币 名 义 有 效 汇 率 

我 国 是 一 个 进出 口 贸 易 量 很 大 的 国家 ， 国 际 市 场 的 影响 对 国内 物价 的 影响 很 大 ， 尤 其 是 当 国 
际 原油 价格 等 重要 资源 发 生变 动 时 ， 因 此 汇率 是 预测 CPI 时 应 该 纳入 考虑 的 因素 。 

PPI: 工业 品 出 广 价格 指数 

PPI 从 产业 链 的 角度 常 被 认为 是 CPI 的 先期 指标 ， 根 据 价 格 传导 规律 ， 以 工业 品味 原材料 的 
生产 ， 存 在 原材料 一 生产 资料 一 生活 资料 的 传导 。 如 果 PPI 指数 比 预期 数值 高 ， 则 表明 有 通货 膨 


胀 的 风险 。 但 在 中 国 ， 作 为 食品 、 粮 食 基 础 的 农业 ， 其 传导 路 径 显然 比 工 业 的 传导 更 为 有 效 ， 因 
此 我 国 数据 的 分 析 结 果 中 ，PPI 不 一 定 对 CPI 有 显著 性 的 影响 。 


IAV: 工业 增加 值 指数 


除 货币 因素 外 ， 实 际 需求 是 需求 拉动 的 另 一 个 重要 组 成 ， 国 内 生产 总 值 GDP 是 反映 一 国 在 
一 定时 期 内 生产 出 的 全 部 最 终 产 品 和 劳务 的 价值 ， 其 反映 了 国内 的 实际 需求 。 但 由 于 GDP 数据 
最 多 细 化 到 季度 ， 因 此 本 文选 择 工 业 增 加 值 IAV 作为 其 替代 变量 ， 来 表示 国内 的 净 需 求 。 


API: 农产品 价格 指数 


国家 统计 局 测算 显示 ，2012 年 12 月 份 CPI 涨幅 中 近 60% 来 自 菜 价 上 涨 ， 而 非 食品 价格 走势 
总 体 较 为 稳定 ， 因 此 通胀 的 主要 压力 还 是 来 自 于 食品 。 农 产品 是 食品 生产 的 基础 ， 农 产品 价格 可 
以 体现 食品 的 生产 成 本 ， 结 合 我 国 的 实际 情况 其 有 重要 的 参考 意义 。 


*+ 数 据 来 源 : 国家 统计 局 官方 数据 、 国 际 清算 银行 (BIS )、 东 方 财富 网 数据 中 心 、 凤 凰 网 财经 数据 。 
(2) 平稳 性 处 理 及 检验 


向 量 自 回 归 模 型 VAR 采用 多 方程 联 立 的 形式 ， 在 模型 的 每 一 个 方程 中 ， 内 生变 量 对 模型 的 
全 部 内 生变 量 滞后 期 数据 进行 回归 ， 从 而 估计 变量 之 间 的 长 期 动态 关系 。 


无 约束 VAR 模型 的 应 用 之 一 是 预测 , 为 分 析 各 变量 对 通货 膨胀 的 影响 情况 以 及 预测 未 来 CPI 
的 走势 ， 本 文选 择 了 VAR 模型 作为 分 析 预 测 的 基础 ，YAR 模型 要 求 参 加 建 模 的 变量 满足 平稳 性 。 
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p 
向 量 自 回 归 模型 一 VAR(p): J = w+ 》 办 ;+E， 
i=l 


在 做 进一步 的 分 析 之 前 ， 我 们 对 原始 数据 取 对 数值 ， 主 要 有 以 下 几 个 好 处 : 

Q 基于 现实 宏观 经 济 的 考虑 ， 各 变量 本 身 之 间 往 往 以 寡 函 数 形式 出 现 ， 取 对 数值 可 以 将 高 
阶 的 乘法 关系 变 为 线性 关系 ， 这 样 方便 一 般 最 小 二 乘法 运算 ; 

@ 取 对 数 后 数据 的 数量 级 减 小 ， 可 以 尽量 消除 序列 的 异 方差 性 、 共 线性 以 及 非 平稳 性 等 ; 

@ 减少 数据 处 理 过 程 中 可 能 产生 的 误差 。 

> data=read.table("d:/data/cpi data.txt",header=T) 

# 根 据 原 始 数据 构造 时 间 序 列 ， 由 于 是 月 度数 据 ， 因 此 设置 frequency 为 12， 以 2005 年 1 月 为 序列 起 点 


> dat=ts (data, frequency=12, start=c(2005,1)) 
> dat=log (dat) # 取 数据 的 对 数值 


首先 根据 原始 数据 (对 数值 〉 的 时 间 序 列 图 观察 其 平稳 性 ， 由 于 工业 增加 值 与 其 他 变量 的 量 
岗 不 一 致 ， 为 避免 图 形 混乱 ， 分 为 两 图 展示 。 


从 图 15.11 可 以 看 出 ， 本 文 分 析 的 6 个 原始 变量 几乎 都 不 平稳 ， 因 此 不 是 零 阶 单 整 。 


> plot.ts(dat,main='time series of cpi') # 绘 制 时 间 序 列 图 


绘制 结果 如 图 15.10 所 示 。 


time series of cpi 

5 下 和 
Q = > 
三 < a 
8 
i 二 

: s 

2006 2008 2010 2012 2014 2006 2008 2010 2012 2014 
Time Time 


图 15.10 对 数 数据 的 时 间 序 列 图 


再 将 变量 进行 一 阶 差 分 后 ， 观 察 其 平稳 性 ， 这 里 直接 观测 一 阶 差分 序列 的 平方 值 ， 效 果 更 为 
明显 。 


> dat qdif=diff (dat) # 得 到 一 阶 差分 序列 

> plot.ts(dat Gif”^2) 

由 图 15.11 可 以 看 出 ， 各 图 的 纵 坐 标 值 均 非常 小 ， 除 了 工业 增加 值 IAV 出 现 两 个 异常 值 
以 外 ， 其 他 变量 一 阶 差分 后 序列 的 平方 均 十 分 接近 0， 因 此 可 以 从 图 形 得 出 初步 的 结论 : 本 
文 所 使 用 的 各 个 变量 都 是 一 阶 单 整 序列 。 
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图 15.11 一 阶 差 分 后 的 时 间 序 列 图 


根据 图 形 观 察 到 的 平稳 性 较为 主观 ， 接 下 来 将 进行 平稳 性 检验 。 常 见 的 平稳 性 单位 根 检验 方 
法 有 DF、ADF 和 PP 检验 ， 这 些 检验 在 R 中 可 以 直接 实现 ,通过 程序 包 tseries (专门 用 于 时 间 序 
列 分 析 和 金融 计算 ) 中 的 函数 adftest0 和 pp.testO 完 成 检验 。 由 于 DF 检验 仅 适用 于 AR(1)，ADF 
主要 用 于 方差 齐 性 场合 , 因此 本 文选 择 可 用 于 异 方差 场合 的 PP 检验 ,其 在 R 中 相应 的 函数 pp.testO 
调用 格式 如 下 : 


pp.test (x, alternative = c("stationary", "explosive"), 

type = c("Z(alpha)", "Z(t alpha)"), lshort = TRUE) 

其 中 ，x 是 数值 变量 或 单 变量 的 时 间 序 列 ，alternative 指定 检验 的 假设 ， 必 须 是 “stationary” 
或 “explosive” 中 的 一 个 ， 默 认为 平稳 性 检验 “stationary”， 可 以 直接 通过 首 字 母 来 指定 ，type 设 
置 计算 哪 一 种 检验 变量 ， 选 择 “Z(alpha)”( 默 认 ) 或 “Z(t_alpha)” 中 的 一 项 。 


在 R 中 对 6 个 时 间 序 列 分 别 进行 PP 检验 ， 结 果 显 示 各 变量 一 阶 差分 后 的 序列 在 0.05 的 置信 
水 平 下 尸 值 均 显 著 ， 说 明 拒绝 PP 检验 的 原 假 设 ， 即 一 阶 差分 序列 平稳 。 我 们 以 CPI 的 平稳 性 检 
验 结果 为 例 : 

>library (tseries) 

> cpi=ts (data$CPI, frequency=12，start=c(2005,1)) # 构 造 CPI 的 单 变量 时 间 序 列 

> cpi dif=diff(1log(cpi)) # 对 cpi 取 对 数 后 ， 再 进行 一 阶 差分 

> pp.test (cpi dif) 

Phillips-Perron Unit Root Test 


data: cpi dif 


Dickey-Fuller Z(alpha) = -112.9586, Truncation lag parameter = 4, p-value = 0.01 
alternative hypothesis: stationary 
(3) 数据 建 模 


检验 完 数据 的 平稳 性 质 ， 接 下 来 进入 真正 的 建 模 阶段 。VAR 是 向 量 自 回 归 模 型 ， 对 每 一 个 方 
程 ， 其 利用 基本 的 OLS (普通 最 小 二 乘法 )。 
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R 语言 中 实现 VAR 建 模 需要 用 到 程序 包 vars 中 的 函数 VARO， 使 用 时 要 注意 函数 名 称 大 写 ， 
与 方差 计算 的 函数 var0 区 分 开 。VARO 的 调用 格式 为 

VRAR(Y，P = 1, type = c("const", "trend", "both", "none"),season = NULL, 

exogen = NULL, lag.max = NULL, ic = c("AIC", "HO", "SC", “FPE") 

参数 的 含义 如 下 ; 通过 参数 y 给 出 数据 ， 包 含 内 生变 量 ; p 为 整数 ， 指 定 模型 的 延迟 阶 数 ， 
默认 p=1; type 表示 回归 模型 确定 性 部 分 包含 的 类 型 ， 包 括 仅 有 常数 项 (“const”)、 仅 有 趋势 项 
(“trend”)、 既 有 常数 项 又 有 趋势 项 (“both”) 和 两 者 均 无 (“none”); season 是 表示 季节 频率 的 整 
数 ; lag.max 确定 最 高 滞后 阶 数 ，ic 是 字符 串 ， 指 定 信息 选择 的 标准 ， 包 括 信息 准则 AIC、HQ 准 
则 等 。 


根据 上 面 的 分 析 ， 由 于 对 数 数据 的 一 阶 差分 序列 是 平稳 的 ， 我 们 首先 对 一 阶 差分 序列 构建 一 
个 无 约束 的 VAR 模型 ， 以 确定 滞后 阶 数 ， 通 常 先 选取 p=2 作为 尝试 。 


VAR 是 一 个 整体 模型 ,函数 VARO0 的 分 析 结 果 中 包含 对 数据 集中 每 一 个 变量 建立 的 回归 方程 。 
但 本 案例 中 研究 的 因 变量 是 CPI， 所 以 我 们 要 在 结果 中 提取 以 CPI 为 响应 变量 的 方程 。 

> install.packages ("vars") 

> library (vars) 

> options (digits=2) 间 计 算 结 果 至 少 显示 2 位 小 数 

> result=VAR (dat dif,p=2) 

> resultSvarresultSCPI #varresult 给 出 模型 中 各 参数 的 估计 结果 ， 用 “$” 提 取 CPI 的 部 分 


Call: 
lm(formula =y ~ -1 + ., data = datamat) 
Coefficients: 
CEPIa li M2.11 NEER.11 PPI.11 IAV.11 API.11 CEL.12 
-0.073964 -0.033240 -0.099707 -0.053892 0..011699 0.115159 0.160104 
M2'012 NEER.12 PPI.12 IAV.12 API.12 const 
-0.052238 OQ-077L5L 0.091665 0.008155 - 0.019520 0.000234 


通过 函数 summary0，R 给 出 了 模型 中 各 变量 的 显著 性 以 及 模型 拟 合 效果 的 一 些 参数 ， 同 样 
也 需要 用 美元 符号 “$” 提 取 CPI 的 模型 估计 结果 。 我 们 可 以 根据 参数 估计 的 显著 性 对 模型 进行 
修正 ， 剔 除 一 些 不 显著 的 变量 。 

> summary (result) $varresult$CPI # 给 出 模型 中 各 变量 的 显著 性 


Call: 
lm(formula =y ~ -1+ ., data = datamat) 
Residuals: 

Min 1Q Median 3Q Max 


-0.021691 -0.003113 -0.000277 0.003688 0.016608 


Coefficients: 
Estimate Std. Error 七 Value Pr(>|It|) 
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CPI.11 -0.073964 0.148119 “0:50 0.61859 

M2 .11 -0.033240 0.061671 0354) 0559106 
NEER.11 -0.099707 0.053345 -1.87 0.06445 
PPI.11 -0.053892 0.116322 -0.46 0.64413 
IAV.11 0.011699 0.003442 3.40 0.00096 ww 
API.11 0.115159 .0:052575 2;- 9 OQ. O03075 * 
CPI.12 0.160104 0.164127 0.98 0.33160 

M2 .12 -05052238， 0.067869 "=0.77 0.44324 
NEER.12 0.077151 0.055490 .1.39 0.16742 

BRE .二 2 0.091665 0.105398 0.87 0.38649 
IAV.12 0.008155 0.003372 2.42 O0173504 
RARPI.12 -0.019520 0.053470 03. QO:71581 
const 0.000234 0.000580 0.40 0.68782 
SEE codess QO ww*™ 0.00 + OQE *! G053 "2" QL 7 “1 


Residual standard error: 0.0062 on 103 degrees of freedom 
Multiple R-squared: 0.257, Adjusted R-squared: 0.17 
F-statistic: 2.97 on 12 and 103 DF, p-value: 0.00137 


Coefficients 部 分 给 出 了 各 参数 估计 值 及 其 显著 性 ， 可 以 看 出 ， 在 滞后 期 为 2 时 ， 根 据 参 数 估 
计 的 P 值 ，t-1 期 的 参数 中 M2，PP2 对 CPI 十 分 不 显著 ， 即 货币 供应 量 、 工 业 品 出 厂价 格 指数 对 
CPI 的 解释 性 不 强 ， 因 此 M2 和 PPI 不 能 作为 CPI 的 解释 变量 建立 VAR 模型 。 

>dat_mod=dat dif[,c(-2,-4)] # 别 除 M2 和 PPI 分 别 对 应 的 第 二 列 和 第 四 列 

> result2=VAR (dat _mod,p=2) # 对 剔除 变量 后 的 数据 建立 VRAR 模型 


> summary (result2) $varresult$CPI 


Call: 
lm(formula =y~ -1+ ., data = datamat) 
Residuals: 

Min 4Q Median 30Q Max 


-0.024021 -0.003670 0.000155 0.003571 0.017203 


Coefficients: 

Estimate Std. Error t value Pr(>|t|) 
CPIs11 -0.092525 05143796 -0.64 0.5213 
NEER.11 -0.079505 0.050891 =1,.56 .1212 
IAV.11 0.010226 0.003207 S90 "OO0L9 ** 
API.11 0.126026 0.049541 2%54” Q .0124 = 
CPISTS 0.224041 0.141009 1-59 .70.1S5Q 
NEER.12 0.073846 0.054023 1537 51 0 1743 
IAV.12 0.007597 0.003137 242 ,0072 广 
API.]2 -0.021894 0.049826 -0.44 0.6613 
const 0.000192 0.000574 4 33 .07390 


Signilr, Godless 0 Tw*t Oa "Sv OOD Me™ OL 
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Residual standard error: 0.0061 on 107 degrees of freedom 

Multiple R-squared: 0.236, Adjusted R-squared: 0.179 

F-statistic: 4.14 on 8 and 107 DF, p-value: 0.000247 

从 上 述 输出 结果 中 可 以 发 现 ， 剔 除 M2 和 PPI 后 ， 剩 余 参 数 更 加 显著 ， 根 据 参 数 估计 结果 ， 
我 们 可 以 写 出 VAR 模型 的 第 一 个 方程 (LCPI 表示 对 CPI 取 对 数 后 的 值 ): 


LCPI = 0.00019—0.09252LCPI, , —0.07951LNEER, | +0.01023LIAV ,+0.12603LAPI, +... 


分 析 参 数 估 计 的 系数 可 以 得 到 变量 之 间 的 长 期 关系 ， 由 于 t-2 期 的 参数 并 不 十 分 显著 ， 这 里 
主要 分 析 上 1 期 系数 所 反映 的 因素 影响 程度 。 首 先 对 CPI 影响 最 大 的 变量 是 农产品 价格 指数 API， 
这 与 我 国 食品 通胀 严重 的 情况 相符 ， 农 产品 价格 的 增长 直接 带动 食品 价格 的 增加 ， 而 我 国 通货 膨 
胀 的 60% 来 自 于 食品 。 此 外 ， 工 业 增 加 值 也 会 带动 CPI 的 同 向 变动 ， 这 与 实际 情况 也 是 一 致 的 。 


人 民 币 的 实际 汇率 系数 为 负 ， 原 因 有 可 能 是 增加 的 货币 供给 并 未 出 现在 流通 领域 ， 而 是 广泛 
充斥 于 房地产 投资 、 金 融 衍生 品 投资 等 领域 ， 因 此 并 未 造成 物价 上 涨 ， 反 而 因为 这 种 投资 挤 压 了 
消费 需求 ， 使 得 物价 下 跌 ， 这 也 正好 印证 了 目前 我 国 房地产 投资 领域 过 热 现象 。 


对 VAR 建 模 返 回 的 对 象 result2 调用 函数 plot)， 可 以 绘制 出 模型 拟 合 曲线 图 和 残 差 图 ,在 有 
中 输入 如 下 指令 : 


> plot (result2) 


绘制 结果 如 图 5.12 所 示 。 
Diagram of fit and residuals for CPI 


0002 -0004 0.002 


-0.004 





图 15.12 CPI 拟 合 曲线 和 残 差 图 


图 15.13 (上 ) 给 出 的 是 对 LCPI 一 阶 差分 序列 的 拟 合 值 ，VAR 模型 大 致 可 以 描述 时 间 序 列 的 
整体 走势 ， 但 也 可 以 发 现 ， 短 期 的 拟 合 效果 要 远 远 好 于 长 期 。 长 期 的 拟 合 值 相对 真实 值 有 一 定 延 
迟 ， 这 种 序列 短期 的 波动 关系 可 以 由 误差 修正 模型 来 解释 。 


15.13〈 下 ) 是 残 差 序 列 的 曲线 图 ， 中 间 的 水 平 直线 表示 残 差 等 于 0， 可 以 看 出 残 差 序 列 是 
围绕 e =0 上 下 波动 的 ， 且 没有 明显 的 变化 趋势 。 
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(4) 预测 分 析 


根据 R 计算 的 VAR 模型 结果 ， 我 们 就 可 以 对 未 来 的 CPI 进行 短期 预测 了 ， 程 序 包 vars 中 携 
带 了 VAR 模型 预测 的 函数 predict()， 其 调用 格式 如 下 : 


predict(object, ...;, n.ahead = 10, ci = 0.95, dumvar = NULL) 

其 中 参数 object 是 “varest” 族 的 对 象 ， 是 函数 VAR() 的 返回 结果 ; n.ahead 是 一 个 整数 ， 指 
定 预测 的 期 数 ; ci 是 预测 的 置信 区 间 。 

> pre=predict (result2,n.ahead=12) 

> CPI.pre=pre$fcst$CPI # 提 取 对 CPI 预测 的 结果 


> ‘CPI pre 
fecst lower upper CI 
[1,] 4.2e-03 -0.0078 0.016 0.012 
[2,] -3.4e-04 -0.0137 0.013 0.013 
[3,] 4.8e-04 -0.0131 0.014 0.014 
[4,] -9.4e-05 -0.0138 0.014 0.014 
[5,] 6.5e-04 -0.0131 0.014 0.014 
[6,] 2.8e-04 -0.0135 0.014 0.014 
[7,] 1.4e-04 -0.0136 0.014 0.014 
[8,] 9.2e-05 -0.0137 0.014 0.014 
[9,] 1.2e-04 -0.0137 0.014 0.014 
[10,] 1.2e-04 -0.0137 0.014 0.014 
[11,] 1.le-04 -0.0137 0.014 0.014 
[12,] 1.0e-04 -0.0137 0.014 0.014 


函数 predict0 返 回 的 计算 结果 包含 对 模型 中 每 一 个 变量 的 12 期 预测 , 上 面 仅 提取 了 对 CPI 预 
测 的 部 分 。 第 一 列 fest 是 对 未 来 12 期 的 预测 值 ，lower 和 upper 分 别 是 预测 区 间 的 上 下 界 。 


需要 注意 的 一 点 是 ， 由 于 本 例 中 是 对 LCPI (CPI 的 对 数 ) 的 一 阶 差分 序列 建立 了 VAR 模型 ， 
因此 上 面 的 预测 结果 也 是 针对 一 阶 差 分 序列 的 。 接 下 来 通过 一 些 数学 运算 ， 计 算出 对 未 来 12 个 
月 的 CPI 预测 值 ， 可 以 初步 判断 ， 未 来 一 年 的 CPI 将 呈 上 升 趋势 。” 

> options (digits=5) # 修 改 小 数 显示 格式 

> LCPI.pre=log (cpi[119])+cumsum(CPI.pre[,1]) # 计 算 CPI 对 数 的 预测 值 

> CPI.pre=exp (LCPI.pre) # 计 算 CPI 预测 值 

> CPI .pre 


[i] 102.43 102.39 102.44 102.43 102.50 102.53 102.54 102.55 102.57 102.58 
[11] 102.59 102.60 


[0 


注 ， 本 例 旨 在 展示 VAR 建 模 方法 及 R 语言 实现 过 程 。 由 于 使 用 的 是 实际 数据 ，VAR 模型 拟 合 效果 不 一 定 最 优 ， 因 此 预测 结 
果 可 能 与 实际 有 一 定 出 入 。 
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及 了 的 最 美 之 处 在 于 ， 能 够 通过 修改 很 多 牛人 预先 编写 好 的 包 的 代码 ， 解 决 你 息 解 决 的 各 种 癌 
题 ， 因 上 此， 事实 上 ， 使 用 区 ， 你 已 经 站 在 了 巨人 的 局 膀 上 


一 -J 从 尔 ， 软 纳 德 : 范 寿 安 


The great beanty of R is that you can modify it to do all sorts of things, And you have a lot of prepackaged stuif 
rhavs alreacy available, so you're standing on the shoulders of giants. 
——Hal Ronald Varian 





本 书 以 数据 分 析 的 前 期 准备 、 基 本 分 析 及 应 用 和 综合 实例 这 三 篇 展开 。 
上 篇 : 数据 分 析 的 前 期 准备 


直 第 1~3 之 组 成 ， 首 先 简 要 章 绍 数据 分 析 的 原则 、 上 虹 又 和 过 程 ， 第 用 王 其 及 尺 在 数据 分 析 中 的 优势 ， 然后 介绍 
民 中 数据 整理 等 数据 而 人 处理 的 基本 隔 数 及 方法 。 这 些 内 容 是 使 用 及 进行 数据 分 析 的 基础 内 容 


中 篇 : 基本 分 析 及 应 用 


由 第 4~13 章 组 成 ， 主 要 讲述 数据 分 析 的 基本 算法 及 应 用 ， 包 括 数据 的 图 形 湛 述 、 描 述 性 分 析 、 驴 数 估计 、 假 设 
检验 ， 以 及 方差 分 析 、 回 归 分 析 、 主 成 分 分 析 、 监 型 相关 分 析 、 判 别 分 村 、 雄 大 分 析 和 时 间 序 列 分 本 ， 这 些 分 
盾 方 法 也 是 数据 分 析 使 用 得 最 多 、 最 普遍 的 自 法 。 及 中 提供 了 和 丰富 的 、 功 能 强大 的 算法 包 和 于 现 函数 ， 数 据 人 


析 的 初级 和 中 级 用 户 务必 党 握 
下 篇 : We 


岂 第 14~15 章 组 成 ， 结合 两 个 夫 例 隆 ， 综 合 讲 还 数据 分 析 在 ey 和 数据 预测 中 的 应 用 、 以 及 如 何 
使 用 及 中 的 廊 法 和 | 工 总 tt 行 应 用 。 对 于 由 高 级 的 用 户 ， 末 以 深入 学 居 一 


上 架 建议 : 计算 机 \ 数 据 分 析 
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